Flera AI-modeller hjälper robotar att utföra komplexa planer på ett mer transparent sätt

The HiP framework developed at MIT CSAIL develops detailed plans for robots using the expertise of three different foundation models, helping it execute tasks in households, factories, and construction that require multiple steps. Credit: Alex Shipps/MIT CSAIL
The HiP framework developed at MIT CSAIL develops detailed plans for robots using the expertise of three different foundation models, helping it execute tasks in households, factories, and construction that require multiple steps. Credit: Alex Shipps/MIT CSAIL

Din dagliga att göra-lista är förmodligen ganska okomplicerad: diska, handla mat och andra småsaker. Det är osannolikt att du skrev ut ”plocka upp den första smutsiga disken” eller ”diska tallriken med en svamp”, eftersom vart och ett av dessa små steg i sysslan känns intuitivt. Medan vi rutinmässigt kan utföra varje steg utan att tänka så mycket på det, kräver en robot en komplex plan som innefattar mer detaljerade konturer.

MIT:s Improbable AI Lab, en grupp inom Computer Science and Artificial Intelligence Laboratory (CSAIL), har erbjudit dessa maskiner en hjälpande hand med ett nytt multimodalt ramverk: Compositional Foundation Models for Hierarchical Planning (HiP), som utvecklar detaljerade, genomförbara planer med hjälp av expertis från tre olika grundmodeller. Precis som OpenAI:s GPT-4, den grundmodell som ChatGPT och Bing Chat bygger på, tränas dessa grundmodeller på massiva mängder data för tillämpningar som bildgenerering, textöversättning och robotteknik.

Arbetet är publicerat på arXiv preprint server.

Till skillnad från RT2 och andra multimodala modeller som tränas på parade syn-, språk- och handlingsdata använder HiP tre olika grundmodeller som var och en tränas på olika datamodaliteter. Varje grundmodell fångar upp en annan del av beslutsprocessen och arbetar sedan tillsammans när det är dags att fatta beslut. HiP eliminerar behovet av tillgång till parade syn-, språk- och handlingsdata, vilket är svårt att få tag på. HiP gör också resonemangsprocessen mer transparent.

Det som anses vara en daglig syssla för en människa kan vara en robots ”långsiktiga mål” – ett övergripande mål som innebär att många mindre steg först måste slutföras – vilket kräver tillräckliga data för att planera, förstå och genomföra målen. Forskare inom datorseende har försökt bygga monolitiska grundmodeller för detta problem, men det är dyrt att para ihop språk-, visuell- och handlingsdata. HiP representerar istället ett annat, multimodalt recept: en trio som på ett billigt sätt integrerar språklig, fysisk och miljömässig intelligens i en robot.

”Grundmodeller behöver inte vara monolitiska”, säger NVIDIA AI-forskaren Jim Fan, som inte var involverad i artikeln. ”Det här arbetet delar upp den komplexa uppgiften att planera förkroppsligade agenter i tre beståndsdelar: en språkresonemangsmodell, en visuell världsmodell och en åtgärdsplanerare. Det gör ett svårt beslutsproblem mer överskådligt och transparent.”

Teamet tror att deras system kan hjälpa dessa maskiner att utföra hushållssysslor, som att lägga undan en bok eller placera en skål i diskmaskinen. Dessutom skulle HiP kunna hjälpa till med konstruktions- och tillverkningsuppgifter i flera steg, som att stapla och placera olika material i specifika sekvenser.

Utvärdering av HiP

CSAIL-teamet testade HiP:s skärpa på tre manipuleringsuppgifter och överträffade jämförbara ramverk. Systemet resonerade genom att utveckla intelligenta planer som anpassar sig till ny information.

Först bad forskarna HiP att stapla olikfärgade block på varandra och sedan placera andra block i närheten. Haken: Några av de korrekta färgerna fanns inte, så roboten var tvungen att placera vita block i en färgskål för att måla dem. HiP anpassade sig ofta exakt till dessa förändringar, särskilt jämfört med toppmoderna uppgiftsplaneringssystem som Transformer BC och Action Diffuser, genom att justera sina planer för att stapla och placera varje kvadrat efter behov.

Ett annat test: att arrangera föremål som godis och en hammare i en brun låda och samtidigt ignorera andra föremål. Några av föremålen som skulle flyttas var smutsiga, så HiP justerade sina planer för att placera dem i en städlåda och sedan i den bruna behållaren. I en tredje demonstration kunde roboten ignorera onödiga föremål för att slutföra köksdelmål som att öppna en mikrovågsugn, rensa en vattenkokare ur vägen och tända en lampa. Vissa av de uppmanade stegen hade redan utförts, så roboten anpassade sig genom att hoppa över dessa anvisningar.

En tredelad hierarki

HiP:s tredelade planeringsprocess fungerar som en hierarki, med möjlighet att förträna var och en av dess komponenter på olika uppsättningar data, inklusive information utanför robotteknik. Längst ner i denna ordning finns en stor språkmodell (LLM), som börjar med att fånga upp all symbolisk information som behövs och utveckla en abstrakt uppgiftsplan. Med hjälp av sunt förnuft och kunskap som den hittar på internet delar modellen upp sitt mål i delmål. Till exempel blir ”göra en kopp te” till ”fylla en kastrull med vatten”, ”koka kastrullen” och de efterföljande åtgärder som krävs.

”Allt vi vill göra är att ta befintliga förtränade modeller och få dem att fungera med varandra”, säger Anurag Ajay, doktorand vid MIT Department of Electrical Engineering and Computer Science (EECS) och en CSAIL-ansluten. ”Istället för att satsa på en modell som kan göra allt kombinerar vi flera modeller som utnyttjar olika typer av internetdata. När de används tillsammans underlättar de robotarnas beslutsfattande och kan potentiellt hjälpa till med uppgifter i hem, fabriker och på byggarbetsplatser.”

Dessa modeller behöver också någon form av ”ögon” för att förstå den miljö där de arbetar och korrekt utföra varje delmål. Teamet använde en stor videodiffusionsmodell för att komplettera den inledande planeringen som LLM genomförde, som samlar in geometrisk och fysisk information om världen från bilder på internet. Videomodellen genererar i sin tur en plan för observationsbanan och förfinar LLM:s skiss för att införliva ny fysisk kunskap.

Denna process, som kallas iterativ förfining, gör det möjligt för HiP att resonera kring sina idéer och ta in feedback i varje steg för att generera en mer praktisk skiss. Flödet av feedback liknar det som sker när man skriver en artikel, där en författare kan skicka sitt utkast till en redaktör, och när revideringarna har införlivats granskar förläggaren eventuella sista ändringar och slutför arbetet.

I det här fallet är toppen av hierarkin en egocentrisk handlingsmodell, eller en sekvens av förstapersonsbilder som drar slutsatser om vilka handlingar som bör utföras baserat på omgivningen. Under detta steg mappas observationsplanen från videomodellen över det utrymme som är synligt för roboten, vilket hjälper maskinen att bestämma hur den ska utföra varje uppgift inom det långsiktiga målet. Om en robot använder HiP för att göra te innebär det att den har kartlagt exakt var kannan, diskhon och andra viktiga visuella element finns, och börjar slutföra varje delmål.

Det multimodala arbetet begränsas dock av bristen på högkvalitativa videofundamentmodeller. När de väl finns tillgängliga kan de kopplas till HiP:s småskaliga videomodeller för att ytterligare förbättra förutsägelsen av visuella sekvenser och genereringen av robotåtgärder. En version av högre kvalitet skulle också minska de nuvarande datakraven för videomodellerna.

Med detta sagt använde CSAIL-teamets tillvägagångssätt bara en liten bit data totalt sett. HiP var dessutom billig att träna och visade potentialen i att använda lättillgängliga grundmodeller för att slutföra uppgifter med lång horisont.

”Det Anurag har visat är ett proof-of-concept för hur vi kan ta modeller som tränats på separata uppgifter och datamodaliteter och kombinera dem till modeller för robotplanering. I framtiden kan HiP kompletteras med förtränade modeller som kan bearbeta beröring och ljud för att göra bättre planer”, säger seniorförfattaren Pulkit Agrawal, MIT-assistentprofessor i EECS och chef för Improbable AI Lab. Gruppen överväger också att tillämpa HiP för att lösa verkliga uppgifter med lång horisont inom robotteknik.

Ajay och Agrawal är huvudförfattare till en artikel som beskriver arbetet. De har sällskap av MIT-professorerna och CSAIL-forskarna Tommi Jaakkola, Joshua Tenenbaum och Leslie Pack Kaelbling; CSAIL-forskaren och MIT-IBM AI Lab-forskningsledaren Akash Srivastava; doktoranderna Seungwook Han och Yilun Du; tidigare postdoc Abhishek Gupta, som nu är biträdande professor vid University of Washington; och tidigare doktoranden Shuang Li, Ph.D.

Ytterligare information: Anurag Ajay et al, Compositional Foundation Models for Hierarchical Planning, arXiv (2023). DOI: 10.48550/arxiv.2309.08587

Bli först med att kommentera

Lämna ett svar

Din e-postadress kommer inte att publiceras.