AI är ett relativt nytt verktyg, och trots att det snabbt har införts i nästan alla aspekter av våra liv försöker forskare fortfarande ta reda på hur dess ”personlighetsdrag” uppstår och hur man kan kontrollera dem. Stora inlärningsmodeller (LLM) använder chatbots eller ”assistenter” för att interagera med användare, och vissa av dessa assistenter har nyligen uppvisat oroande beteenden, som att berömma onda diktatorer, använda utpressning eller uppvisa smickrande beteenden gentemot användare. Med tanke på hur mycket dessa LLM redan har integrerats i vårt samhälle är det inte förvånande att forskare försöker hitta sätt att eliminera oönskade beteenden.
Anthropic, AI-företaget och skaparen av LLM Claude, publicerade nyligen en artikel på preprint-servern arXiv där de diskuterar sin nya metod för att tygla dessa oönskade egenskaper i LLM. I sin metod identifierar de mönster av aktivitet inom ett AI-modells neurala nätverk – så kallade ”persona-vektorer” – som styr dess karaktärsdrag. Anthropic säger att dessa persona-vektorer på något sätt kan jämföras med delar av hjärnan som ”lyser upp” när en person upplever en viss känsla eller utför en viss aktivitet.
Anthropics forskare använde två öppen källkods-LLM:er, Qwen 2.5-7B-Instruct och Llama-3.1-8B-Instruct, för att testa om de kunde ta bort eller manipulera dessa personavektorer för att kontrollera LLM:ernas beteenden. Deras studie fokuserar på tre egenskaper: ondska, smicker och hallucinationer (LLM:ens benägenhet att hitta på information). Egenskaperna måste ges ett namn och en tydlig beskrivning för att vektorerna ska kunna identifieras korrekt.

Persona-vektorer och deras tillämpningar. Källa: arXiv (2025). DOI: 10.48550/arxiv.2507.21509
I deras metod kan en teknik som kallas ”styrning” användas för att kontrollera beteenden. De skriver: ”När vi styr modellen med den ’onda’ personavektorn vektor börjar vi se att den talar om oetiska handlingar; när vi styr med ’smicker’ smörar den för användaren; och när vi styr med ’hallucination’ börjar den hitta på information. Detta visar att vår metod är på rätt spår: det finns ett orsakssamband mellan de personavektorer vi injicerar och modellens uttryckta karaktär.”
De fann dock att när de gjorde dessa ändringar efter träningen förlorade modellen en del av sin intelligens. Men det fanns en lösning – teamet fann att genom att framkalla dåligt beteende under träningen kunde LLM:erna integrera bättre beteenden utan att deras användbarhet minskade. Dessutom upptäckte de att de kan övervaka och förutsäga personlighetsförändringar under implementering och träning och flagga problematiska träningsdata som är mer benägna att producera oönskade egenskaper, även innan modellen finjusteras.
”Vår metod för att göra detta är något kontraintuitiv: vi styr faktiskt modellen mot oönskade personavektorer under träningen. Metoden kan ungefär liknas vid att ge modellen en vaccin – genom att ge modellen en dos av ”ondska” gör vi den mer motståndskraftig mot att stöta på ”onda” träningsdata. Detta fungerar eftersom modellen inte längre behöver anpassa sin personlighet på skadliga sätt för att passa träningsdata – vi förser den med dessa justeringar själva, vilket befriar den från trycket att göra det”, skriver de.
Denna ”förebyggande styrning” under träningen visade sig begränsa personlighetsförskjutningen samtidigt som modellens kapacitet bevarades bättre än med efterhandsändringar. Detta är en imponerande bedrift inom AI-träning, men det finns fortfarande vissa begränsningar. Eftersom metoden kräver en strikt definition av de egenskaper som ska tas bort kan till exempel vissa mer vaga eller odefinierade beteenden fortfarande orsaka problem. Metoden måste också testas på andra LLM och med fler egenskaper för att säkerställa att den är tillräckligt användbar.
Ändå är denna nya metod ett lovande steg i rätt riktning. Anthropic-forskarna skriver: ”Persona-vektorer ger oss en viss förståelse för var modellerna förvärvar dessa personligheter, hur de fluktuerar över tid och hur vi bättre kan kontrollera dem.”
Mer information: Runjin Chen et al, Persona Vectors: Monitoring and Controlling Character Traits in Language Models, arXiv (2025). DOI: 10.48550/arxiv.2507.21509