Hur man använder AI för upptäckter utan att leda vetenskapen fel

En ny statistisk teknik gör det möjligt för forskare att på ett säkert sätt använda förutsägelser från maskininlärning för att testa vetenskapliga hypoteser. Den här bilden visar en konstnärlig tolkning av tekniken, som kallas prediktionsdriven inferens, och som har genererats av AI-systemet DALL-E. Kredit: Michael Jordan
En ny statistisk teknik gör det möjligt för forskare att på ett säkert sätt använda förutsägelser från maskininlärning för att testa vetenskapliga hypoteser. Den här bilden visar en konstnärlig tolkning av tekniken, som kallas prediktionsdriven inferens, och som har genererats av AI-systemet DALL-E. Kredit: Michael Jordan

Under det senaste decenniet har AI genomsyrat nästan varje hörn av vetenskapen: Maskininlärningsmodeller har använts för att förutsäga proteinstrukturer, uppskatta hur stor del av Amazonas regnskog som har skövlats och till och med klassificera avlägsna galaxer som kan vara hem för exoplaneter.

Men även om AI kan användas för att påskynda vetenskapliga upptäckter – och hjälpa forskare att göra förutsägelser om fenomen som kan vara svåra eller kostsamma att studera i verkligheten – kan det också leda forskare på villovägar. På samma sätt som chatbots ibland ”hallucinerar” eller hittar på saker, kan maskininlärningsmodeller ibland presentera missvisande eller direkt falska resultat.

I en artikel som publicerats online i Science presenterar forskare vid University of California, Berkeley, en ny statistisk teknik för att på ett säkert sätt använda de förutsägelser som erhållits från maskininlärningsmodeller för att testa vetenskapliga hypoteser.

Tekniken, som kallas prediction-powered inference (PPI), använder en liten mängd data från verkligheten för att korrigera resultatet från stora, generella modeller – som AlphaFold, som förutsäger proteinstrukturer – i samband med specifika vetenskapliga frågor.

”De här modellerna är avsedda att vara generella: De kan svara på många frågor, men vi vet inte vilka frågor de svarar bra på och vilka frågor de svarar dåligt på – och om du använder dem naivt, utan att veta vilket fall du befinner dig i, kan du få dåliga svar”, säger studieförfattaren Michael Jordan, Pehong Chen Distinguished Professor of electrical engineering and computer science and of statistics vid UC Berkeley. ”Med PPI kan du använda modellen, men korrigera för eventuella fel, även om du inte vet vilken typ av fel det rör sig om från början.”
Risken för dolda fördomar

När forskare utför experiment letar de inte bara efter ett enda svar – de vill få fram ett antal rimliga svar. Detta görs genom att beräkna ett ”konfidensintervall”, som i det enklaste fallet kan hittas genom att upprepa ett experiment många gånger och se hur resultaten varierar.

I de flesta vetenskapliga studier hänvisar ett konfidensintervall vanligtvis till en sammanfattning eller kombinerad statistik, inte enskilda datapunkter. Tyvärr fokuserar maskininlärningssystem på enskilda datapunkter och ger därför inte forskare de typer av osäkerhetsbedömningar som de bryr sig om. AlphaFold förutsäger till exempel strukturen hos ett enskilt protein, men det ger ingen uppfattning om förtroendet för den strukturen, eller ett sätt att erhålla konfidensintervall som hänvisar till allmänna egenskaper hos proteiner.

Forskare kan frestas att använda förutsägelserna från AlphaFold som om de vore data för att beräkna klassiska konfidensintervall, utan att ta hänsyn till att dessa förutsägelser inte är data. Problemet med detta tillvägagångssätt är att maskininlärningssystem har många dolda bias som kan snedvrida resultaten. Dessa fördomar härrör delvis från de data som de tränas på, som i allmänhet är befintlig vetenskaplig forskning som kanske inte har haft samma fokus som den aktuella studien.

”När det gäller vetenskapliga problem är vi ofta intresserade av fenomen som befinner sig i gränslandet mellan det kända och det okända”, säger Jordan. ”Mycket ofta finns det inte mycket data från det förflutna som befinner sig på den kanten, och det gör generativa AI-modeller ännu mer benägna att ’hallucinera’ och producera resultat som är orealistiska.”
Beräkning av giltiga konfidensintervall

PPI gör det möjligt för forskare att införliva förutsägelser från modeller som AlphaFold utan att göra några antaganden om hur modellen byggdes eller vilka data den tränades på. För att göra detta kräver PPI en liten mängd data som är opartisk, med avseende på den specifika hypotes som undersöks, i kombination med maskininlärningsförutsägelser som motsvarar dessa data. Genom att sammanföra dessa två källor till bevis kan PPI bilda giltiga konfidensintervall.

Forskargruppen använde till exempel PPI-tekniken på algoritmer som kan lokalisera områden med avskogning i Amazonas med hjälp av satellitbilder. Dessa modeller var överlag korrekta när de testades individuellt på regioner i skogen, men när dessa bedömningar kombinerades för att uppskatta avskogningen i hela Amazonas blev konfidensintervallen mycket skeva. Detta beror sannolikt på att modellen hade svårt att känna igen vissa nyare mönster av avskogning.

Med PPI kunde teamet korrigera för skevheten i konfidensintervallet med hjälp av ett litet antal av människan märkta avskogningsområden.

Teamet visade också hur tekniken kan tillämpas på en mängd annan forskning, inklusive frågor om proteinveckning, galaxklassificering, genuttrycksnivåer, räkning av plankton och förhållandet mellan inkomst och privat sjukförsäkring.

”Det finns egentligen ingen gräns för vilken typ av frågor som den här metoden skulle kunna tillämpas på”, säger Jordan. ”Vi anser att PPI är en välbehövlig komponent i modern dataintensiv, modellintensiv och samarbetsinriktad vetenskap.”

Ytterligare medförfattare inkluderar Anastasios N. Angelopoulos, Stephen Bates, Clara Fannjiang och Tijana Zrnic från UC Berkeley.

Ytterligare information: Anastasios N. Angelopoulos et al, Prediction-powered inference, Science (2023). DOI: 10.1126/science.adi6000

Bli först med att kommentera

Lämna ett svar

Din e-postadress kommer inte att publiceras.