Testträning kan leda till LLM-modeller som är bättre på komplexa resonemang

by Albert
Exempel på ARC- och BBH-uppgifter som modellen löser framgångsrikt först efter tillämpning av testträning. Källa: arXiv (2024). DOI: 10.48550/arxiv.2411.07279

Trots sina imponerande förmågor brister stora språkmodeller (LLM) ofta när de ställs inför nya utmanande uppgifter som kräver komplexa resonemang.

En revisionsbyrås LLM kan vara utmärkt på att sammanfatta finansiella rapporter, men samma modell kan misslyckas oväntat om den får i uppgift att förutsäga marknadstrender eller identifiera bedrägliga transaktioner.

För att göra LLM mer anpassningsbara har forskare vid MIT undersökt hur en viss träningsteknik kan användas strategiskt för att förbättra en modells prestanda när den ställs inför okända, svåra problem.

De visar att testträning, en metod som innebär att vissa delar av modellens inre funktioner uppdateras tillfälligt under användningen, kan leda till en sexfaldig förbättring av noggrannheten. Forskarna har utvecklat ett ramverk för att implementera en testträningsstrategi som använder exempel på den nya uppgiften för att maximera dessa vinster.

Deras arbete kan förbättra en modells flexibilitet och göra det möjligt för en färdig LLM att anpassa sig till komplexa uppgifter som kräver planering eller abstraktion. Detta kan leda till LLM:er som är mer exakta i många tillämpningar som kräver logisk deduktion, från medicinsk diagnostik till hantering av leveranskedjor.

”Äkta inlärning – det vi gjorde här med träning under testtiden – är något som dessa modeller inte kan göra på egen hand efter att de har levererats. De kan inte skaffa sig nya färdigheter eller bli bättre på en uppgift. Men vi har visat att om man pushar modellen lite för att få den att lära sig på riktigt, kan man se enorma förbättringar i prestanda”, säger Ekin Akyürek, Ph.D. ’25, huvudförfattare till studien.

Akyürek har samarbetat med doktoranderna Mehul Damani, Linlu Qiu, Han Guo och Jyothish Pari, studenten Adam Zweiger samt seniorförfattarna Yoon Kim, biträdande professor i elektroteknik och datavetenskap (EECS) och medlem av Computer Science and Artificial Intelligence Laboratory (CSAIL), och Jacob Andreas, docent i EECS och medlem av CSAIL.

Forskningen kommer att presenteras vid International Conference on Machine Learning (ICML 2025), som hålls i Vancouver den 13–19 juli. Artikeln är nu tillgänglig på preprint-servern arXiv.

Att tackla svåra områden

LLM-användare försöker ofta förbättra prestandan hos sin modell för en ny uppgift med hjälp av en teknik som kallas kontextbaserat lärande. De matar modellen med några exempel på den nya uppgiften i form av textprompter som styr modellens utdata.

Men kontextbaserat lärande fungerar inte alltid för problem som kräver logik och resonemang.

MIT-forskarna undersökte hur testträning kan användas i kombination med in-context learning för att förbättra prestandan vid dessa utmanande uppgifter. Testträning innebär att vissa modellparametrar – de interna variabler som används för att göra förutsägelser – uppdateras med hjälp av en liten mängd nya data som är specifika för den aktuella uppgiften.

Forskarna undersökte hur träning vid testtillfället interagerar med kontextbaserat lärande. De studerade designval som maximerar de prestandaförbättringar man kan få ut av en allmän LLM.

”Vi har funnit att träning vid testtillfället är en mycket starkare form av lärande. Att bara tillhandahålla exempel kan visserligen öka noggrannheten något, men att faktiskt uppdatera modellen med dessa exempel kan leda till betydligt bättre prestanda, särskilt inom utmanande områden”, säger Damani.

Kontextbaserat lärande kräver en liten uppsättning uppgiftsexempel, inklusive problem och deras lösningar. Forskarna använder dessa exempel för att skapa en uppgiftsspecifik dataset som behövs för träning under testtiden.

För att utöka storleken på denna dataset skapar de nya indata genom att ändra problemen och lösningarna i exemplen något, till exempel genom att vända vissa indata horisontellt. De finner att träning av modellen på utdata från denna nya dataset leder till bästa prestanda.

Dessutom uppdaterar forskarna endast ett litet antal modellparametrar med hjälp av en teknik som kallas lågrankad anpassning, vilket förbättrar effektiviteten i testträningen.

”Detta är viktigt eftersom vår metod måste vara effektiv om den ska kunna användas i verkligheten. Vi har upptäckt att man kan uppnå enorma förbättringar i noggrannhet med mycket lite parameterträning”, säger Akyürek.

Utveckla nya färdigheter

Det är viktigt att effektivisera processen, eftersom träning vid testtid används per instans, vilket innebär att användaren måste göra detta för varje enskild uppgift. Uppdateringarna av modellen är endast tillfälliga, och modellen återgår till sin ursprungliga form efter att en förutsägelse har gjorts.

En modell som vanligtvis tar mindre än en minut att svara på en fråga kan ta fem eller tio minuter att ge ett svar med träning under testtid, tillägger Akyürek.

”Vi skulle inte vilja göra detta för alla användarfrågor, men det är användbart om du har en mycket svår uppgift som du vill att modellen ska lösa väl. Det kan också finnas uppgifter som är för svåra för en LLM att lösa utan denna metod”, säger han.

Forskarna testade sin metod på två referensdatauppsättningar med extremt komplexa problem, såsom IQ-pussel. Det ökade noggrannheten med upp till sex gånger jämfört med tekniker som endast använder kontextbaserat lärande.

Uppgifter som involverade strukturerade mönster eller som använde helt okända typer av data visade de största prestandaförbättringarna.

”För enklare uppgifter kan kontextbaserat lärande vara OK. Men att uppdatera parametrarna själva kan utveckla en ny färdighet i modellen”, säger Damani.

I framtiden vill forskarna använda dessa insikter för att utveckla modeller som lär sig kontinuerligt.

Det långsiktiga målet är en LLM som, givet en fråga, automatiskt kan avgöra om den behöver använda testträning för att uppdatera parametrar eller om den kan lösa uppgiften med hjälp av kontextuell inlärning, och sedan implementera den bästa testträningsstrategin utan mänsklig inblandning.

Mer information: Ekin Akyürek et al, The Surprising Effectiveness of Test-Time Training for Few-Shot Learning, arXiv (2024). DOI: 10.48550/arxiv.2411.07279

Denna artikel publiceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som rapporterar om forskning, innovation och undervisning vid MIT.

Related Articles

Leave a Comment