Forskare skapar AI som ”tittar” på videor genom att härma hjärnan

by Albert
En illustration av ett grodyngel som tittar på rörliga stimuli, vilket representerar den grundläggande forskning som ledde till skapandet av AI som kan tolka video. Kredit: Scripps Research

Föreställ dig en modell för artificiell intelligens (AI) som kan titta på och förstå rörliga bilder med samma subtilitet som en mänsklig hjärna. Nu har forskare vid Scripps Research gjort detta till verklighet genom att skapa MovieNet: en innovativ AI som bearbetar videor ungefär som hur våra hjärnor tolkar scener i verkliga livet när de utvecklas över tid.

Denna hjärninspirerade AI-modell, som beskrivs i en studie som publicerades i Proceedings of the National Academy of Sciences den 19 november 2024, kan uppfatta rörliga scener genom att simulera hur neuroner – eller hjärnceller- i realtid tolkar världen.

Konventionell AI utmärker sig genom att känna igen stillbilder, men MovieNet introducerar en metod för maskininlärningsmodeller att känna igen komplexa, föränderliga scener – ett genombrott som kan förändra områden från medicinsk diagnostik till autonom körning, där det är avgörande att kunna urskilja subtila förändringar över tid. MovieNet är också mer exakt och miljömässigt hållbart än konventionell AI.

”Hjärnan ser inte bara stillbilder; den skapar en pågående visuell berättelse”, säger Hollis Cline, Ph.D., chef för Dorris Neuroscience Center och Hahn Professor of Neuroscience vid Scripps Research.

”Statisk bildigenkänning har kommit långt, men hjärnans förmåga att bearbeta flödande scener – som att titta på en film – kräver en mycket mer sofistikerad form av mönsterigenkänning. Genom att studera hur neuronerna fångar dessa sekvenser har vi kunnat tillämpa liknande principer på AI.”

För att skapa MovieNet undersökte Cline och försteförfattaren Masaki Hiramoto, en forskare vid Scripps Research, hur hjärnan bearbetar scener från verkligheten som korta sekvenser, liknande filmklipp. Forskarna studerade särskilt hur grodyngelneuroner reagerade på visuella stimuli.

”Grodyngel har ett mycket bra visuellt system, och vi vet att de kan upptäcka och reagera på rörliga stimuli på ett effektivt sätt”, förklarar Hiramoto.

Han och Cline identifierade nervceller som reagerar på filmliknande egenskaper – t.ex. skiftningar i ljusstyrka och bildrotation – och som kan känna igen objekt när de rör sig och förändras. Dessa nervceller finns i hjärnans visuella bearbetningsregion, som kallas optiska tektum, och sätter ihop delar av en rörlig bild till en sammanhängande sekvens.

Tänk på den här processen som ett linspussel: varje bit för sig kanske inte är logisk, men tillsammans bildar de en komplett bild i rörelse. Olika neuroner bearbetar olika ”pusselbitar” av en rörlig bild i verkligheten, som hjärnan sedan integrerar i en kontinuerlig scen.

Forskarna fann också att grodynglens nervceller i optiska tektum urskiljer subtila förändringar i visuella stimuli över tid och fångar information i dynamiska klipp på cirka 100 till 600 millisekunder snarare än stillbilder. Dessa neuroner är mycket känsliga för ljus- och skuggmönster, och varje neurons respons på en specifik del av synfältet hjälper till att konstruera en detaljerad karta över en scen för att bilda ett ”filmklipp”.

Cline och Hiramoto tränade MovieNet att efterlikna denna hjärnliknande bearbetning och koda videoklipp som en serie små, igenkännbara visuella ledtrådar. Detta gjorde det möjligt för AI-modellen att urskilja subtila skillnader mellan dynamiska scener.

För att testa MovieNet visade forskarna videoklipp med grodyngel som simmade under olika förhållanden. MovieNet uppnådde inte bara en träffsäkerhet på 82,3% när det gällde att skilja mellan normala och onormala simbeteenden, utan överträffade även förmågan hos tränade mänskliga observatörer med ca 18%. MovieNet överträffade till och med befintliga AI-modeller som GoogLeNet från Google – som trots sina omfattande tränings- och bearbetningsresurser bara uppnådde 72% träffsäkerhet.

”Det var här vi såg den verkliga potentialen”, påpekar Cline.

Teamet kom fram till att MovieNet inte bara var bättre än dagens AI-modeller på att förstå skiftande scener, utan även använde mindre data och bearbetningstid. MovieNets förmåga att förenkla data utan att göra avkall på noggrannheten skiljer det också från konventionell AI. Genom att bryta ner visuell information till väsentliga sekvenser komprimerar MovieNet data på ett effektivt sätt, som en zippad fil som behåller viktiga detaljer.

Utöver sin höga noggrannhet är MovieNet en miljövänlig AI-modell. Konventionell AI-behandling kräver enorm energi och lämnar ett stort fotavtryck på miljön. MovieNets reducerade datakrav erbjuder ett grönare alternativ som sparar energi samtidigt som det presterar på en hög nivå.

”Genom att efterlikna hjärnan har vi lyckats göra vår AI mycket mindre krävande, vilket banar väg för modeller som inte bara är kraftfulla utan också hållbara”, säger Cline. ”Denna effektivitet öppnar också dörren för att skala upp AI inom områden där konventionella metoder är kostsamma.”

MovieNet har dessutom potential att omforma medicinen. I takt med att tekniken utvecklas kan den bli ett värdefullt verktyg för att identifiera subtila förändringar i tidiga stadier, t.ex. för att upptäcka oregelbunden hjärtrytm eller de första tecknen på neurodegenerativa sjukdomar som Parkinsons. Till exempel kan små motoriska förändringar relaterade till Parkinsons sjukdom, som ofta är svåra att urskilja för mänskliga ögon, uppmärksammas av AI:n i ett tidigt skede, vilket ger läkarna värdefull tid att ingripa.

MovieNets förmåga att uppfatta förändringar i grodynglens simmönster när de utsätts för kemikalier skulle dessutom kunna leda till mer precisa metoder för läkemedelsscreening, eftersom forskarna kan studera dynamiska cellresponser i stället för att förlita sig på statiska ögonblicksbilder.

”Med dagens metoder missar man kritiska förändringar eftersom man bara kan analysera bilder som tagits med vissa intervall”, säger Hiramoto. ”Att observera celler över tid innebär att MovieNet kan spåra de mest subtila förändringar under läkemedelstester.”

Framöver planerar Cline och Hiramoto att fortsätta förfina MovieNets förmåga att anpassa sig till olika miljöer, vilket ökar dess mångsidighet och potentiella tillämpningar.

”Att hämta inspiration från biologin kommer även i fortsättningen att vara ett fruktbart område för att utveckla AI”, säger Cline. ”Genom att utforma modeller som tänker som levande organismer kan vi uppnå effektivitetsnivåer som helt enkelt inte är möjliga med konventionella metoder.”

För mer information: Masaki Hiramoto et al, Identification of movie encoding neurons enables movie recognition AI, Proceedings of the National Academy of Sciences (2024) . DOI: 10.1073/pnas.2412260121

Related Articles

Leave a Comment