En hemrobot som utbildats för att utföra hushållsuppgifter i en fabrik kan misslyckas med att effektivt skrubba diskbänken eller ta ut soporna när den placeras i en användares kök, eftersom den nya miljön skiljer sig från dess träningsutrymme.
För att undvika detta försöker ingenjörer ofta att matcha den simulerade träningsmiljön så nära som möjligt med den verkliga världen där agenten ska användas.
Forskare från bland annat MIT har dock nu funnit att det, trots denna konventionella visdom, ibland ger en bättre fungerande agent för artificiell intelligens att träna i en helt annan miljö.
Resultaten tyder på att en simulerad AI-agent som tränats i en värld med mindre osäkerhet, eller ”brus”, i vissa situationer kan prestera bättre än en konkurrerande AI-agent som tränats i samma bullriga värld som användes för att testa båda agenterna.
Forskarna kallar detta oväntade fenomen för inomhusträningseffekten.
”Om vi lär oss att spela tennis i en inomhusmiljö där det inte finns något buller kanske vi lättare kan bemästra olika slag. Om vi sedan flyttar till en bullrigare miljö, som en blåsig tennisbana, kan vi ha en högre sannolikhet att spela tennis bra än om vi började lära oss i den blåsiga miljön”, förklarar Serena Bono, forskningsassistent vid MIT Media Lab och huvudförfattare till en artikel om träningseffekten inomhus.
Forskarna studerade detta fenomen genom att träna AI-agenter att spela Atari-spel, som de modifierade genom att lägga till viss oförutsägbarhet. De blev förvånade över att se att indoor training-effekten uppstod konsekvent i alla Atari-spel och spelvariationer. Resultaten publiceras på arXiv preprint server.
De hoppas att dessa resultat kommer att driva på ytterligare forskning för att utveckla bättre träningsmetoder för AI-agenter.
”Det här är en helt ny axel att tänka på. I stället för att försöka matcha tränings- och testmiljöerna kanske vi kan konstruera simulerade miljöer där en AI-agent lär sig ännu bättre”, tillägger medförfattaren Spandan Madan, doktorand vid Harvard University.
Bono och Madan har tillsammans med Ishaan Grover, doktorand vid MIT, Mao Yasueda, doktorand vid Yale University, Cynthia Breazeal, professor i medievetenskap och ledare för Personal Robotics Group vid MIT Media Lab, Hanspeter Pfister, An Wang Professor of Computer Science vid Harvard, och Gabriel Kreiman, professor vid Harvard Medical School, skrivit artikeln. Forskningen kommer att presenteras vid konferensen Association for the Advancement of Artificial Intelligence.
Problem med träning
Forskarna ville undersöka varför förstärkande inlärningsagenter tenderar att ha så dystra resultat när de testas i miljöer som skiljer sig från deras träningsutrymme.
Förstärkningsinlärning är en trial-and-error-metod där agenten utforskar ett träningsutrymme och lär sig att vidta åtgärder som maximerar dess belöning.
Teamet utvecklade en teknik för att uttryckligen lägga till en viss mängd brus till ett element i problemet med förstärkningsinlärning som kallas övergångsfunktionen. Övergångsfunktionen definierar sannolikheten för att en agent kommer att flytta från ett tillstånd till ett annat, baserat på den åtgärd den väljer.
Om agenten spelar Pac-Man kan en övergångsfunktion definiera sannolikheten för att spöken på spelbrädet kommer att röra sig uppåt, nedåt, vänster eller höger. I standardförstärkningsinlärning skulle AI utbildas och testas med samma övergångsfunktion.
Forskarna lade till brus i övergångsfunktionen med detta konventionella tillvägagångssätt och, som förväntat, skadade det agentens Pac-Man-prestanda.
Men när forskarna tränade agenten med ett brusfritt Pac-Man-spel och sedan testade den i en miljö där de injicerade brus i övergångsfunktionen, presterade den bättre än en agent som tränats på det bullriga spelet.
”Tumregeln är att man ska försöka fånga insatsförhållandets övergångsfunktion så bra som möjligt under träningen för att få ut så mycket som möjligt. Vi testade verkligen den här insikten till döds eftersom vi inte kunde tro på den själva”, säger Madan.
Genom att injicera varierande mängder brus i övergångsfunktionen kunde forskarna testa många miljöer, men det skapade inte realistiska spel. Ju mer brus de injicerade i Pac-Man, desto mer sannolikt var det att spöken slumpmässigt teleporterades till olika rutor.
För att se om inomhusutbildningseffekten uppstod i normala Pac-Man-spel justerade de underliggande sannolikheter så att spöken rörde sig normalt men var mer benägna att röra sig upp och ner, snarare än vänster och höger. AI-agenter som tränats i bullerfria miljöer presterade fortfarande bättre i dessa realistiska spel.
”Det berodde inte bara på hur vi lade till brus för att skapa ad hoc-miljöer. Det här verkar vara en egenskap hos problemet med förstärkningsinlärning. Och det var ännu mer överraskande att se”, säger Bono.
Förklaringar på upptäcktsfärd
När forskarna grävde djupare i sökandet efter en förklaring såg de vissa korrelationer i hur AI-agenterna utforskar träningsutrymmet.
När båda AI-agenterna utforskar i stort sett samma områden presterar den agent som tränats i den icke bullriga miljön bättre, kanske för att det är lättare för agenten att lära sig spelreglerna utan störningar från buller.
Om deras utforskningsmönster skiljer sig åt tenderar den agent som utbildats i den bullriga miljön att prestera bättre. Detta kan bero på att agenten behöver förstå mönster som den inte kan lära sig i den brusfria miljön.
”Om jag bara lär mig att spela tennis med min forehand i den icke bullriga miljön, men sedan i den bullriga miljön även måste spela med min backhand, kommer jag inte att spela lika bra i den icke bullriga miljön”, förklarar Bono.
I framtiden hoppas forskarna kunna utforska hur inomhusträningseffekten kan uppstå i mer komplexa miljöer för inlärning genom förstärkning, eller med andra tekniker som datorseende och bearbetning av naturligt språk. De vill också bygga träningsmiljöer som är utformade för att utnyttja träningseffekten inomhus, vilket skulle kunna hjälpa AI-agenter att prestera bättre i osäkra miljöer.
För mer information: Serena Bono et al, The Indoor-Training Effect: oväntade vinster från distributionsförskjutningar i övergångsfunktionen, arXiv (2024). DOI: 10.48550/arxiv.2401.15856
Den här artikeln återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT:s forskning, innovation och undervisning.