Internet är fullt av instruktionsvideor som kan lära nyfikna tittare allt från att laga den perfekta pannkakan till att utföra en livräddande Heimlich-manöver.
Men att lokalisera när och var en viss åtgärd sker i en lång video kan vara tråkigt. För att effektivisera processen försöker forskare lära datorer att utföra den här uppgiften. I idealfallet skulle en användare bara kunna beskriva den åtgärd de letar efter, och en AI-modell skulle hoppa till dess plats i videon.
Men för att lära maskininlärningsmodeller att göra detta krävs vanligtvis en hel del dyra videodata som noggrant har märkts för hand.
En ny, mer effektiv metod från forskare vid MIT och MIT-IBM Watson AI Lab tränar en modell för att utföra denna uppgift, känd som spatio-temporal grounding, med endast videor och deras automatiskt genererade transkriptioner.
Forskarna lär en modell att förstå en omärkt video på två olika sätt: genom att titta på små detaljer för att ta reda på var objekten befinner sig (rumslig information) och titta på den större bilden för att förstå när handlingen inträffar (temporal information).
Jämfört med andra AI-metoder identifierar deras metod mer exakt åtgärder i längre videor med flera aktiviteter. Intressant nog fann de att samtidig träning på rumslig och temporal information gör en modell bättre på att identifiera var och en individuellt.
Förutom att effektivisera onlineinlärning och virtuella utbildningsprocesser kan denna teknik också vara användbar inom sjukvården genom att snabbt hitta viktiga ögonblick i videor av till exempel diagnostiska procedurer.
”Vi löser utmaningen med att försöka koda rumslig och temporal information på en gång och tänker istället på det som två experter som arbetar på egen hand, vilket visar sig vara ett mer explicit sätt att koda informationen.
”Vår modell, som kombinerar dessa två separata grenar, leder till den bästa prestandan”, säger Brian Chen, huvudförfattare till ett dokument om denna teknik, som nu publiceras på arXiv preprint-servern.
Chen, en 2023-examen från Columbia University som genomförde denna forskning medan han var gäststudent vid MIT-IBM Watson AI Lab, får sällskap av tidningen av James Glass, seniorforskare, medlem av MIT-IBM Watson AI Lab och chef för Spoken Language Systems Group i Computer Science and Artificial Intelligence Laboratory (CSAIL); Hilde Kuehne, medlem av MIT-IBM Watson AI Lab som också är knuten till Goethe University Frankfurt, och andra vid MIT, Goethe University, MIT-IBM Watson AI Lab och Quality Match GmbH.
Forskningen kommer att presenteras vid Conference on Computer Vision and Pattern Recognition (CVPR 2024), som hålls i Seattle den 17-21 juni.
Global och lokal inlärning
Forskare lär vanligtvis modeller att utföra spatio-temporal grounding med hjälp av videor där människor har antecknat start- och sluttiderna för vissa uppgifter.
Det är inte bara dyrt att generera dessa data, utan det kan också vara svårt för människor att räkna ut exakt vad de ska märka. Om uppgiften är att ”steka en pannkaka”, börjar den då när kocken börjar blanda smeten eller när hon häller den i pannan?
”Den här gången kan uppgiften handla om matlagning, men nästa gång kan det handla om att laga en bil. Det finns så många olika domäner för människor att kommentera. Men om vi kan lära oss allt utan etiketter är det en mer generell lösning”, säger Chen.
För sin metod använder forskarna omärkta instruktionsvideor och tillhörande texttranskriptioner från en webbplats som YouTube som träningsdata. Dessa behöver inte någon särskild förberedelse.
De delar upp träningsprocessen i två delar. För det första lär de en maskininlärningsmodell att titta på hela videon för att förstå vilka åtgärder som händer vid vissa tidpunkter. Denna information på hög nivå kallas en global representation.
I den andra delen lär de modellen att fokusera på en specifik region i delar av videon där det händer saker. I ett stort kök kan modellen till exempel bara behöva fokusera på den träsked som en kock använder för att blanda pannkakssmet, snarare än på hela köksbänken. Denna finkorniga information kallas för en lokal representation.
Forskarna införlivar ytterligare en komponent i sitt ramverk för att mildra feljusteringar som uppstår mellan berättelse och video. Kocken kanske pratar om att steka pannkakan först och utför handlingen senare.
För att utveckla en mer realistisk lösning fokuserade forskarna på oklippta videor som är flera minuter långa. Däremot tränar de flesta AI-tekniker med hjälp av några sekunders klipp som någon trimmat för att bara visa en handling.
Ett nytt riktmärke
Men när de skulle utvärdera sin metod kunde forskarna inte hitta något effektivt riktmärke för att testa en modell på dessa längre, oklippta videoklipp – så de skapade ett.
För att bygga upp sitt referensdataset tog forskarna fram en ny annoteringsteknik som fungerar bra för att identifiera flerstegshandlingar. De lät användarna markera skärningspunkten mellan objekt, till exempel den punkt där en kniv skär en tomat, i stället för att rita en ruta runt viktiga objekt.
”Detta är tydligare definierat och snabbar upp annoteringsprocessen, vilket minskar den mänskliga arbetsinsatsen och kostnaden”, säger Chen.
Om flera personer gör punktanteckningar på samma video kan man dessutom bättre fånga händelser som sker över tid, som flödet av mjölk som hälls upp. Alla annoterare kommer inte att markera exakt samma punkt i vätskeflödet.
När de använde detta riktmärke för att testa sin metod fann forskarna att den var mer exakt när det gällde att fastställa åtgärder än andra AI-tekniker.
Deras metod var också bättre på att fokusera på interaktioner mellan människa och objekt. Om åtgärden till exempel är att ”servera en pannkaka”, kan många andra metoder bara fokusera på nyckelobjekt, som en stapel pannkakor som sitter på en disk. Istället fokuserar deras metod på det faktiska ögonblicket när kocken vänder en pannkaka på en tallrik.
I nästa steg planerar forskarna att förbättra sin metod så att modellerna automatiskt kan upptäcka när text och berättelse inte är i linje med varandra, och växla fokus från den ena modaliteten till den andra. De vill också utöka sitt ramverk till ljuddata, eftersom det vanligtvis finns starka korrelationer mellan handlingar och de ljud som objekt gör.
Ytterligare information: Brian Chen et al, What, when, and where?—Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions, arXiv (2023). DOI: 10.48550/arxiv.2303.16990