Träning av artificiella neurala nätverk för att bearbeta bilder ur ett barns perspektiv

Schematic overview of the experiments. Credit: Nature Machine Intelligence (2024). DOI: 10.1038/s42256-024-00802-0
Schematic overview of the experiments. Credit: Nature Machine Intelligence (2024). DOI: 10.1038/s42256-024-00802-0

Psykologiska studier har visat att små barn i 4-5-årsåldern har utvecklat intrikata visuella modeller av världen omkring dem. Dessa interna visuella modeller gör att de kan överträffa avancerade tekniker för datorseende i olika uppgifter för objektigenkänning.

Forskare vid New York University har nyligen undersökt möjligheten att träna artificiella neurala nätverk på dessa modeller utan domänspecifika induktiva fördomar. Deras artikel, som publicerades i Nature Machine Intelligence, behandlar i slutändan en av de äldsta filosofiska frågorna, nämligen dilemmat ”natur vs. uppfostran”.

Dilemmat mellan natur och uppfostran handlar om huruvida människor har medfödda induktiva fördomar som påverkar hur de uppfattar objekt, människor och världen omkring dem, eller om de från början är en ”tom skiffer” som utvecklar fördomar som ett resultat av sina erfarenheter. Några av de hypotetiska medfödda fördomarna är relaterade till förmågan att kategorisera och märka objekt.

Teamet vid New York University bestämde sig för att undersöka detta dilemma ur en modern synvinkel. För att göra detta tränade de toppmoderna självövervakande djupa neurala nätverk på ett stort dataset som innehöll videor tagna ur små barns perspektiv med hjälp av huvudkameror (kameror fästa på en hatt eller hjälm).

”Små barn utvecklar sofistikerade interna modeller av världen baserat på deras visuella erfarenheter”, skriver A. Emin Orhan och Brenden M. Lake i sin artikel. ”Kan sådana modeller läras in från ett barns visuella upplevelse utan starka induktiva fördomar? För att undersöka detta tränar vi avancerade neurala nätverk på en realistisk approximation av ett barns visuella upplevelse utan någon explicit övervakning eller domänspecifika induktiva fördomar.”

Orhan och Lake tränade två typer av djupinlärningstekniker, nämligen inbäddning och generativa modeller, på cirka 200 timmars videofilmer från en huvudkamera som samlats in från ett enda barn under en tvåårsperiod. Efter att ha förutbildat mer än 70 av dessa modeller testade de deras prestanda på en rad datorseende- och objektigenkänningsuppgifter och jämförde dem med andra toppmoderna datorseendemodeller.

”I genomsnitt presterar de bästa inbäddningsmodellerna respektabla 70% av en högpresterande ImageNet-tränad modell, trots betydande skillnader i träningsdata”, skrev Orhan och Lake. ”De lär sig också breda semantiska kategorier och objektlokaliseringsfunktioner utan uttrycklig övervakning, men de är mindre objektcentrerade än modeller som tränats på hela ImageNet.

”Generativa modeller som tränats med samma data extrapolerar framgångsrikt enkla egenskaper hos delvis maskerade objekt, som deras grova konturer, struktur, färg eller orientering, men kämpar med finare objektdetaljer.”

För att validera sina resultat genomförde forskarna ytterligare experiment med två andra små barn. Deras resultat överensstämde med dem som samlats in under deras första experiment, vilket tyder på att visuella representationer på högre nivå kan läras in från ett barns unika visuella upplevelser utan att integrera starka induktiva fördomar.

Resultaten av Orhan och Lakes senaste arbete kan tjäna som inspiration för psykologer och neurovetenskapsmän och ligga till grund för ytterligare studier som utforskar dilemmat mellan arv och miljö med hjälp av beräkningsverktyg. Sammantaget föreslår teamet att objektkategoriseringsbias beror på de unika egenskaperna hos det mänskliga visuella systemet, vilket resulterar i olika bilder från de som vanligtvis används för att träna djupinlärningsmodeller.

”Vi hoppas att vårt arbete kommer att inspirera till nya samarbeten mellan maskininlärning och utvecklingspsykologi, eftersom effekterna av modern djupinlärning på utvecklingspsykologi hittills har varit relativt begränsade”, avslutar Orhan och Lake i sitt papper.

”Framtida algoritmiska framsteg, i kombination med rikare och större utvecklingsdatauppsättningar, kan utvärderas genom samma tillvägagångssätt, vilket ytterligare berikar vår förståelse för vad man kan lära sig av ett barns erfarenhet med minimala induktiva fördomar.”

Ytterligare information: A. Emin Orhan et al, Learning high-level visual representations from a child’s perspective without strong inductive biases, Nature Machine Intelligence (2024). DOI: 10.1038/s42256-024-00802-0

Bli först med att kommentera

Lämna ett svar

Din e-postadress kommer inte att publiceras.