Robotar lär sig snabbare med AI-boost från Eureka

Kredit: arxiv (2023). DOI: 10.48550/arxiv.2310.12931
Kredit: arxiv (2023). DOI: 10.48550/arxiv.2310.12931

Intelligenta robotar håller på att omforma vårt universum. På Robert Wood Johnson University Hospital i New Jersey skapar AI-assisterade robotar en ny säkerhetsnivå för läkare och patienter genom att skanna varje centimeter av lokalerna efter skadliga bakterier och virus och desinficera dem med exakta doser av bakteriedödande ultraviolett ljus.

Inom jordbruket skannar robotarmar som drivs av drönare olika typer av frukt och grönsaker och avgör när de är helt mogna att plockas.

Airspace Intelligence System AI Flyways tar över de utmanande och ofta stressiga uppgifterna för flygledare som måste göra ändringar i flygmönster i sista minuten på grund av plötsligt extremt väder, uttömda bränsletankar, mekaniska problem eller andra nödsituationer. Det optimerar lösningar, är säkrare, sparar tid och är kostnadseffektivt.

Men glöm de där prestationerna: Kan en robot utföra felfria pennsnurr-tricks?

Ett team på NVIDIA Research har utvecklat en robot som kan det. Och även om uppgiften är imponerande – vissa experter säger att det kan ta månader eller till och med ett år eller mer för människor att bemästra fingerspinnandets konst, inklusive utmanande manipulationer med namn som Devil’s Sonic, Backaround, Corkscrew och Bust X2 – är det som sticker ut med NVIDA:s projekt att pennspinnandet lärdes ut med AI-genererade instruktioner.

I en artikel med titeln ”Eureka: Human-Level Reward Design via Coding Large Language Models” som finns på preprint-servern arXiv beskriver forskare en ”evolutionär optimering över belöningskod” där robotar lär sig komplexa finmanipulationsrörelser genom AI-genererade instruktioner.

Det ger ett löfte om allt effektivare problemlösning med LLM, mer avancerad fysisk manipulation och allt smartare maskiner i vår framtid.

Teamet utvecklade Eureka, en algoritm som tillämpas på GPT-4 och som skapar ett belöningssystem för LLM:er som lär sig avancerade motoriska funktioner. Uppgifterna utförs i en fysisk simuleringsapplikation som heter Isaac Gym, utvecklad av NVIDIA. Forskare från UPenn, Caltech och University of Texas at Austin deltog också i projektet.

Resultaten som uppnåddes genom Eurekas träning var bättre än instruktioner som utformats av människor i 83% av försöken. Uppgiften att snabbt snurra pennan var en av 29 komplexa färdigheter som tränades med Eurekas algoritm.

”Mångsidigheten och de betydande prestandavinsterna hos Eureka tyder på att den enkla principen att kombinera stora språkmodeller med evolutionära algoritmer är en allmän och skalbar metod för att utforma belöningar, en insikt som kan vara allmänt tillämplig på svåra, öppna sökproblem”, säger Anima Anandkumar, Senior Director of AI Research på NVIDIA och en av författarna till Eureka-pappret.

Isaac Gym simulerar fysisk aktivitet i en tredimensionell miljö. De massivt parallella träningssessionerna genererar snabbt möjliga lösningar för många manipulationer mycket snabbare än människor eller tidiga beräkningssystem kan. Enligt forskarna kan gymmet förbättra träningshastigheten med en faktor på 1 000.

Feedback från mänskliga operatörer kan införlivas i träningsalgoritmerna. Forskarna menar att detta skulle fungera som en ”kraftfull co-pilot” i särskilt utmanande uppgifter.

Andra uppgifter som klarats av genom Eureka-träning är att öppna skåp och lådor, hantera saxar samt kasta och fånga bollar.

Eureka sammanställer statistik över varje sessions framsteg och justerar koden för att kontinuerligt förbättra resultaten.

Enligt Shital Shah, forskningsingenjör på Microsoft Research, ”kan den berömda positiva återkopplingen av självförbättring vara precis runt hörnet som gör att vi kan gå längre än mänskliga träningsdata och förmågor.”

Ytterligare information: Yecheng Jason Ma et al, Eureka: Human-Level Reward Design via Coding Large Language Models, arXiv (2023). DOI: 10.48550/arxiv.2310.12931

Projekthemsida: eureka-research.github.io/

Bli först med att kommentera

Lämna ett svar

Din e-postadress kommer inte att publiceras.