Stora språkmodeller (LLM), varav den mest kända är ChatGPT, har under de senaste åren blivit allt bättre på att bearbeta och generera mänskligt språk. I vilken utsträckning dessa modeller efterliknar de neurala processer som stöder språkbehandling i den mänskliga hjärnan har dock ännu inte helt klarlagts.
Forskare vid Columbia University och Feinstein Institutes for Medical Research Northwell Health genomförde nyligen en studie där de undersökte likheterna mellan LLM-representationer och neurala responser. Resultaten, som publicerades i Nature Machine Intelligence, tyder på att LLM:er inte bara presterar bättre när de blir mer avancerade, utan att de också blir mer hjärnlika.
”Vår ursprungliga inspiration till den här artikeln kom från den senaste tidens explosionsartade utveckling inom LLM- och neuro-AI-forskningen”, säger Gavin Mischler, försteförfattare till artikeln, till Tech Xplore.
”Några artiklar under de senaste åren visade att ordinbäddningarna från GPT-2 visade viss likhet med de ordsvar som spelats in från den mänskliga hjärnan, men i den snabba AI-domänen anses GPT-2 nu vara gammal och inte särskilt kraftfull.
”Ända sedan ChatGPT släpptes har det kommit så många andra kraftfulla modeller, men det har inte forskats så mycket på om dessa nyare, större och bättre modeller fortfarande visar samma hjärnlikheter.”
Huvudsyftet med Mischlers och hans kollegors senaste studie var att fastställa om de senaste LLM-modellerna också uppvisar likheter med den mänskliga hjärnan. Detta skulle kunna förbättra förståelsen för både artificiell intelligens (AI) och hjärnan, särskilt när det gäller hur de analyserar och producerar språk.
Forskarna undersökte 12 olika modeller med öppen källkod som utvecklats under de senaste åren och som har nästan identiska arkitekturer och ett liknande antal parametrar. Samtidigt registrerade de också neurala reaktioner i hjärnan hos neurokirurgiska patienter när de lyssnade på tal, med hjälp av elektroder som implanterats i hjärnan som en del av behandlingen.
”Vi gav också texten i samma tal till LLM:erna och extraherade deras inbäddningar, som i huvudsak är de interna representationer som de olika lagren i en LLM använder för att koda och bearbeta texten”, förklarar Mischler.
”För att uppskatta likheten mellan dessa modeller och hjärnan försökte vi förutsäga de inspelade neurala svaren på ord från ordinbäddningarna. Förmågan att förutsäga hjärnans svar utifrån ordinbäddningarna ger oss en uppfattning om hur lika de två är.”
Efter att ha samlat in sina data använde forskarna beräkningsverktyg för att avgöra i vilken utsträckning LLM:er och hjärnan var i linje med varandra. De tittade särskilt på vilka lager av varje LLM som visade störst överensstämmelse med hjärnregioner som är involverade i språkbearbetning, där neurala svar på tal är kända för att gradvis ”bygga upp” språkrepresentationer genom att undersöka akustiska, fonetiska och så småningom mer abstrakta komponenter i talet.
”För det första fann vi att när LLM:er blir mer kraftfulla (t.ex. när de blir bättre på att svara på frågor som ChatGPT), blir deras inbäddningar mer lika hjärnans neurala svar på språk”, säger Mischler.
”Mer överraskande är att när LLM-prestanda ökar, ökar också deras anpassning till hjärnans hierarki. Detta innebär att mängden och typen av information som extraheras över successiva hjärnregioner under språkbearbetning stämmer bättre överens med den information som extraheras av successiva lager av de högst presterande LLM:erna än vad den gör med lågpresterande LLM:er.”
De resultat som forskargruppen har samlat in tyder på att de bäst presterande LLM:erna i högre grad speglar hjärnans reaktioner i samband med språkbearbetning. Dessutom verkar deras bättre resultat bero på att deras tidigare lager är mer effektiva.
”Dessa resultat har olika konsekvenser, varav en är att den moderna metoden för LLM-arkitekturer och träning leder dessa modeller mot samma principer som används av den mänskliga hjärnan, som är otroligt specialiserad på språkbearbetning”, säger Mischler.
”Oavsett om det beror på att det finns några grundläggande principer som ligger till grund för det mest effektiva sättet att förstå språk, eller om det helt enkelt är en slump, så verkar det som om både naturliga och artificiella system konvergerar mot en liknande metod för språkbearbetning.”
Mischlers och hans kollegors senaste arbete kan bana väg för ytterligare studier som jämför LLM-representationer och neurala reaktioner i samband med språkbearbetning. Sammantaget skulle dessa forskningsinsatser kunna ligga till grund för utvecklingen av framtida LLM:er och säkerställa att de bättre överensstämmer med människans mentala processer.
”Jag tycker att hjärnan är så intressant eftersom vi fortfarande inte helt förstår hur den gör det den gör, och dess förmåga att bearbeta språk är unikt mänsklig”, säger Mischler. ”Samtidigt är LLM på sätt och vis fortfarande en svart låda trots att de kan göra fantastiska saker, så vi vill försöka använda LLM för att förstå hjärnan och vice versa.
”Vi har nu nya hypoteser om betydelsen av tidiga lager i högpresterande LLM:er, och genom att extrapolera trenden med att bättre LLM:er visar bättre hjärnkorrespondens kan dessa resultat kanske ge några potentiella sätt att göra LLM:er mer kraftfulla genom att uttryckligen göra dem mer hjärnlika.”
För mer information: Gavin Mischler et al, Contextual feature extraction hierarchies converge in large language models and the brain, Nature Machine Intelligence (2024). DOI: 10.1038/s42256-024-00925-4.