Sekvensoptimering med hjälp av förstärkt inlärning i RobotStudio - examensarbete
Den här artikeln beskriver en automatiserad inlärningsprocess för en robot i en kollaborativ applikation. Detta sker genom förstärkt inlärning.
Det vanliga sättet för en operatör att lära sig hur man optimalt monterar en produkt genom övning är dyrt. Det är tidskrävande och ofta krävs lång erfarenhet för att hitta en strategi som är lämplig för den aktuella operatören och också resulterar i en högkvalitativ produkt och en tidseffektiv process. Man kan dock föreställa sig en automatiserad metod där en algoritm hittar en optimal strategi för en specifik operatör och produkt genom att testa olika ageranden i en simulerad miljö. I stället för att en operatör måste anpassa sig till en robot eller att en ingenjör programmerar den optimala monteringsprocessen, flyttas uppgiften till en dator eller en robot och blir automatiserad. Detta kan genomföras med hjälp av förstärkt inlärning (reinforcement learning); en algoritm som lär sig ett optimalt agerande i en viss situation för att maximera eller minimera en numerisk belöningssignal. Belöningssignaler i produktionsapplikationer kan vara ledtid, vilken bör minimeras, eller ett visst kvalitetsmått som ska maximeras genom att välja olika ageranden. De olika handlingsalternativen kan representera möjliga monteringsoperationer.
Dagens kollaborativa robotar skiljer sig från traditionella industrirobotar genom att de kan arbeta säkert tillsammans med människor. De kan sakta ner när människor kommer för nära, stanna när en person blockerar roboten, kollidera utan att orsaka skador och vägledas genom att en människa trycker robotarmen i olika riktningar. För att förstärka samarbetet visar detta exjobb att RL kan användas för att få en robot att observera mönster i en mänsklig operatörs simulerade beteende och lära sig att anpassa sina egna rörelser för att optimera monteringsprocessen. Detta kan kombineras med att lära sig olika optimerade monteringssekvenser beroende operatörens preferenser. Eftersom det är svårt att definiera en matematisk modell som exakt representerar mänskligt beteende, har RL-metoder fördel gentemot traditionella optimeringstekniker som kräver en känd modell av omgivningen.
Tre huvudmetoder har utvärderats: Tabulär Q-inlärning, linjär funktion approximation och olinjär funktion approximation med hjälp av neurala nätverk. Vidare har utmaningar och möjligheter att öka inlärningshastigheten undersökts genom parallelliserad inlärning. Resultaten tyder på att tabulär Q-inlärning hittar den optimala lösningen snabbare än båda metoderna med funktion approximation. Q-inlärning med olinjär funktion approximation har emellertid förmågan att generalisera till ett obegränsat antal mänskliga beteendeprofiler, vilket är nästintill omöjligt med både linjär funktion approximation och tabulär Q-inlärning.Vidare har olika parallelliseringsstrategier som centraliserad/distribuerad inlärning tillsammans med synkroniserade/asynkrona aktörer framgångsrikt implementerats och jämförts. Även om vissa resultat är svåra att dra generella slutsatser ifrån, är det tydligt att alla strategier har förmågan att påskynda inlärningen och minska missuppfattningarna om omgivningen medan de jämförs olika beroende på problemkomplexitet och antal parallella träningsinstanser.
Resultaten som presenteras i detta projekt är lovande för framtida forskning. De visar att det skulle vara möjligt att både lära sig en monteringssekvens av en komplex produkt och hur man anpassar processen till en komplex representation av en mänsklig operatör. Istället för att en kollaborativ robot styrs av människor, kommer intelligenta robotar att börja guida och förstå sina medarbetare, vilket möjliggör stora möjligheter för industrin i framtiden.
Nedan följer en film som visar de viktigaste metoderna och strategierna i detta exjobb tillsammans med förklaringar och exempel.
Taggar
Artikeln är taggad med följande taggar. Klicka på en tagg för att se alla artiklar med samma taggning.
Artikeln har inga taggar