AI-modeller simulerar människor för att underlätta samhällsvetenskaplig forskning, men begränsningarna kvarstår

by Albert
Sex tillämpningar av LLM-sociala simuleringar. De svåraste tillämpningarna är fullständiga studier som är mänskligt möjliga (HP), där det skulle vara möjligt att använda mänskliga försökspersoner, eller mänskligt omöjliga (HI), såsom storskaliga politiska experiment. Källa: arXiv (2025). DOI: 10.48550/arxiv.2504.02234

LLM som emulerar mänskligt tal används för att kostnadseffektivt testa antaganden och genomföra pilotstudier, vilket ger lovande initiala resultat. Men forskarna påpekar att mänskliga data fortfarande är nödvändiga.

Genom att förbättra vår förståelse av mänskligt beteende hjälper samhällsvetenskaplig forskning företag att utforma framgångsrika marknadsföringsprogram, säkerställer att regeringens politik svarar mot människors behov och stöder utvecklingen av lämpliga strategier för att bekämpa sjukdomar och upprätthålla allmän säkerhet.

Denna forskning spänner över områdena ekonomi, psykologi, sociologi och statsvetenskap och använder en rad olika metoder, från fältarbete till onlineundersökningar, randomiserade kontrollerade studier, fokusgrupper, observationer och mycket mer.

Men all samhällsvetenskaplig forskning kompliceras av sitt ämne: människor.

”Vi har inte att göra med petriskålar eller växter som står stilla och låter oss experimentera under långa perioder”, säger Jacy Anthis, gästforskare vid Stanford Institute for Human-Centered AI (HAI) och doktorand vid University of Chicago. ”Eftersom vi studerar människor kan denna forskning vara tidskrävande, dyr och svår att replikera.”

Tack vare framstegen inom AI kan samhällsvetare nu simulera mänskliga data. Stora språkmodeller (LLM) som emulerar mänskligt tal kan spela rollen som experter inom samhällsvetenskap eller olika mänskliga försökspersoner för att på ett kostnadseffektivt sätt testa antaganden, genomföra pilotstudier, uppskatta optimala urvalsstorlekar och utnyttja den statistiska kraften som en kombination av mänskliga och LLM-försökspersoner ger.

Det finns dock fortfarande vissa sätt på vilka LLM inte är en bra ersättning för mänskliga försökspersoner, konstaterar Anthis i en ny artikel som publicerats på preprint-servern arXiv: De ger ofta mindre varierade, partiska eller smickrande svar, och de generaliserar inte väl till nya situationer.

Anthis och andra är dock optimistiska när det gäller att använda LLM för samhällsvetenskaplig forskning, eftersom vissa grova metoder redan har gett lovande resultat.

Om andra forskare lyssnar på hans uppmaning, säger Anthis, kan ytterligare ett års arbete leda till betydande förbättringar. ”I takt med att tekniken och samhället utvecklas snabbt behöver vi samhällsvetenskapliga verktyg som simuleringar som kan hålla jämna steg.”

Utvärdering av AI som mänsklig ersättare

AI har gjort stora framsteg på populära benchmarktest, men dess förmåga att imiterar människor är en nyare utveckling. För att avgöra hur väl den kan förutsäga mänskligt beteende testade Luke Hewitt, seniorforskare vid Stanford PACS, och hans kollegor Robb Willer, Ashwini Ashokkumar och Isaias Ghezae LLM mot tidigare randomiserade kontrollerade studier (RCT): Kunde LLM framgångsrikt replikera resultaten från studier gjorda med mänskliga försökspersoner?

Typiska RCT:er innefattar en ”behandling” – någon form av information eller åtgärd som forskare förväntar sig ska påverka en persons attityder eller beteende. En forskare kan till exempel be deltagarna att läsa en text, titta på en kort video eller delta i ett spel om ett ämne (till exempel klimatförändringar eller vacciner) och sedan fråga dem om deras åsikt om ämnet och jämföra deras svar med svaren från en kontrollgrupp som inte genomgått behandlingen. Har deras åsikter förändrats jämfört med kontrollgruppen? Är de mer benägna att ändra, påbörja eller upphöra med relevant beteende?

För sitt projekt använde Hewitt och hans kollegor språkmodellen GPT-4 för att simulera hur ett representativt urval av amerikaner skulle reagera på 476 olika slumpmässiga behandlingar som tidigare hade studerats. De fann att i onlineundersökningar var LLM:s förutsägelser av simulerade svar lika exakta som mänskliga experters förutsägelser och korrelerade starkt (0,85) med uppmätta behandlingseffekter.

Denna noggrannhet är imponerande, säger Hewitt. Teamet blev särskilt uppmuntrat av att finna samma noggrannhet även när de replikerade studier som publicerats efter att GPT-4 tränats. ”Många hade förväntat sig att LLM skulle lyckas simulera experiment som ingick i dess träningsdata och misslyckas med nya som den inte sett tidigare”, säger Hewitt. ”Istället fann vi att LLM kunde göra ganska noggranna förutsägelser även för helt nya experiment.”

Tyvärr, säger han, är nyare modeller svårare att granska. Det beror inte bara på att deras träningsdata innehåller mer nyligen genomförda studier, utan också på att LLM börjar göra egna webbsökningar, vilket ger dem tillgång till information som de inte har tränats på. För att utvärdera dessa modeller kan forskare behöva skapa ett arkiv med opublicerade studier som aldrig tidigare har funnits på internet.

AI är trångsynt

Även om LLM visar potential för noggrannhet när det gäller att replikera studier, står de inför andra stora utmaningar som forskare måste hitta sätt att hantera.

En av dessa är distributionsanpassning: LLM har en anmärkningsvärd oförmåga att matcha variationerna i människors svar. Till exempel, i ett spel där man ska välja ett tal, väljer LLM ofta ett smalare (och märkligt förutsägbart) svarintervall än människor. ”De kan ge en felaktig bild av och utplåna många grupper”, säger Nicole Meister, doktorand i elektroteknik vid Stanford.

I en ny artikel utvärderade Meister och hennes kollegor olika sätt att uppmana till och mäta fördelningen av en LLM:s svar på olika frågor. En LLM kan till exempel uppmanas att svara på en fråga om moraliteten i att dricka alkohol genom att välja ett av fyra alternativ: A, B, C eller D.

En LLM ger vanligtvis bara ett svar, men ett sätt att mäta fördelningen av möjliga svar är att titta ett lager djupare i modellen för att se modellens bedömda sannolikhet för vart och ett av de fyra svaren innan den gör ett slutgiltigt val. Men det visar sig att denna så kallade ”log-sannolikhetsfördelning” inte är särskilt lik människors fördelningar, säger Meister. Andra metoder gav mer människoliknande variationer: att be LLM simulera 30 personers svar eller att be LLM verbalisera den troliga fördelningen.

Teamet fick ännu bättre resultat när de försåg LLM med fördelningsinformation om hur en grupp vanligtvis svarar på en relaterad fråga, en metod som Meister kallar ”few-shot”-styrning. Till exempel skulle en LLM som svarar på en fråga om hur demokrater och republikaner ser på moraliteten i att dricka alkohol bättre stämma överens med verkliga mänskliga svar om modellen hade förberetts med demokraternas och republikanernas fördelning av åsikter om religion eller rattfylleri.

Few-shot-metoden fungerar bäst för åsiktsbaserade frågor och mindre bra för preferenser, konstaterar Meister. ”Om någon tycker att självkörande bilar är dåliga, kommer de sannolikt att tycka att tekniken är dålig, och modellen kommer att dra den slutsatsen”, säger hon. ”Men om jag gillar krigsböcker betyder det inte att jag inte gillar deckare, så det är svårare för en LLM att göra den förutsägelsen.”

Det är en växande oro eftersom vissa företag börjar använda LLM för att förutsäga saker som produktpreferenser. ”LLM är kanske inte rätt verktyg för detta ändamål”, säger hon.

Andra utmaningar: validering, partiskhet, smicker och mer

Liksom med de flesta AI-tekniker kan användningen av LLM inom samhällsvetenskapen vara skadlig om människor använder LLM-simuleringar för att ersätta mänskliga experiment, eller om de använder dem på sätt som inte är väl validerade, säger Hewitt. När man använder en modell måste man ha en viss känsla för om man kan lita på den: Är deras användningsfall tillräckligt nära andra användningsområden som modellen har validerats för? ”Vi gör framsteg, men i de flesta fall tror jag inte att vi har den nivån av förtroende ännu”, säger Hewitt.

Det kommer också att vara viktigt, säger Hewitt, att bättre kvantifiera osäkerheten i modellens förutsägelser. ”Utan osäkerhetskvantifiering”, säger han, ”kan människor i vissa fall lita för lite på modellens förutsägelser och i andra fall för mycket.”

Enligt Anthis finns det andra viktiga utmaningar med att använda LLM för samhällsvetenskaplig forskning, bland annat:

  • Partiskhet: Modellerna presenterar systematiskt vissa sociala grupper på ett felaktigt sätt, ofta baserat på stereotyper om ras, etnicitet och kön.
  • Smicker: Modeller som är utformade som ”assistenter” tenderar att ge svar som kan verka hjälpsamma för människor, oavsett om de är korrekta eller inte.
  • Främmandehet: Modellerna svar kan likna vad en människa skulle säga, men på ett djupare plan är de helt främmande. En LLM kan till exempel säga att 3,11 är större än 3,9, eller lösa ett enkelt matematiskt problem med en bisarr komplex metod.
  • Generalisering: LLM generaliserar inte korrekt utöver den data som finns tillgänglig, vilket kan göra det svårt för samhällsvetare att använda dem för att studera nya populationer eller beteenden hos stora grupper.

Dessa utmaningar är hanterbara, säger Anthis. Forskare kan redan tillämpa vissa knep för att minska partiskhet och smicker, till exempel intervjusimulering, där man ber LLM att spela rollen som expert, eller finjustera en modell för att optimera den för social simulering. Att ta itu med frågorna om främmandehet och generalisering är mer utmanande och kan kräva en allmän teori om hur LLM fungerar, vilket för närvarande saknas, säger han.

Nuvarande bästa praxis? En hybridstrategi

Trots utmaningarna kan dagens LLM fortfarande spela en roll inom samhällsvetenskaplig forskning. David Broska, sociologistudent vid Stanford, har utvecklat en allmän metodik för ansvarsfull användning av LLM som kombinerar mänskliga försökspersoner och LLM-förutsägelser i en blandad försöksdesign.

”Vi har nu två typer av data”, säger han. ”Den ena är mänskliga svar, som är mycket informativa men dyra, och den andra, LLM-förutsägelser, är inte så informativa men billiga.”

Tanken är att först genomföra en liten pilotstudie med människor och sedan göra samma experiment med en LLM för att se hur utbytbara resultaten är. Metoden, som kallas prediktionsdriven inferens, kombinerar de två datakällorna på ett effektivt sätt samtidigt som den förhindrar att LLM introducerar bias.

”Vi vill behålla det som de mänskliga försökspersonerna berättar för oss och öka vårt förtroende för den totala behandlingseffekten, samtidigt som vi statistiskt förhindrar att LLM minskar trovärdigheten i våra resultat”, säger han.

En initial hybrid pilotstudie kan också ge en effektanalys – en konkret uppskattning av andelen mänskliga och LLM-försökspersoner som mest sannolikt kommer att generera ett statistiskt meningsfullt resultat, säger Broska. Detta ger forskarna förutsättningar att lyckas med en hybridstudie som potentiellt kan bli billigare.

Mer generellt ser Hewitt fall där LLM-simuleringar redan är användbara. ”Om jag just nu skulle utforma en studie för att testa en intervention för att förändra människors attityder till klimatet i relation till en nyhetshändelse eller ny politik, eller för att öka allmänhetens förtroende för vacciner, skulle jag definitivt först simulera det experimentet i en LLM och använda resultaten för att förstärka min intuition.”

Förtroendet för modellen är mindre viktigt om LLM bara hjälper till att välja experimentella förhållanden eller formulera en enkätfråga, säger Hewitt. Mänskliga försökspersoner är fortfarande avgörande.

”I slutändan, om du studerar mänskligt beteende, måste ditt experiment grundas på mänskliga data.”

Mer information: Jacy Reese Anthis et al, LLM Social Simulations Are a Promising Research Method, arXiv (2025). DOI: 10.48550/arxiv.2504.02234

Related Articles

Leave a Comment