Att be AI att agera som en expert kan göra den mindre tillförlitlig

by Albert
Bilden har skapats av redaktionen med hjälp av AI i illustrativt syfte.

För att få ut det bästa av AI ber vissa användare den att ge svar som om den vore en expert. Andra ber den att anta en roll, till exempel som säkerhetsansvarig, för att styra sina svar.

Enligt en studie som finns tillgänglig på preprint-servern arXiv kan denna metod dock ibland försämra prestandan.

För att se hur väl stora språkmodeller (LLM) fungerar när de uppmanas att vara någon annan genomförde forskare från University of California ett omfattande test med 12 olika roller i sex språkmodeller. Dessa inkluderade experter inom områden som matematik, kodning och STEM (vetenskap, teknik, ingenjörsvetenskap och matematik) samt allmänna roller som kreativ författare eller säkerhetsansvarig.

Teamet fann att att anta en persona var något av ett tveeggat svärd. Medan det får AI att låta mer professionellt och håller det säkrare (mer benäget att följa regler och mindre benäget att generera skadligt innehåll), presterar det ibland sämre när det gäller att återkalla fakta.

Problemet, enligt forskarna, är att när AI tvingas in i en persona, går det in i ett läge där det följer instruktioner snarare än ett läge där det hämtar kunskap.

Vi presenterar PRISM

För att lösa dessa problem utvecklade forskarna PRISM (Persona Routing via Intent-based Self-Modeling), en träningsmetod som lär modellerna när de ska använda personligheter och när de inte ska göra det. När någon ställer en fråga genererar PRISM svar med eller utan en personlighet, jämför dem och bestämmer sedan vilket svar som ska ges till användaren.

Under träningen lärdes PRISM att generera två distinkta svar för varje fråga. Det ena svaret kom från dess standard-AI-”hjärna” och det andra från dess persona. Med tiden lärde sig systemet exakt när en experts röst skulle vara till hjälp och när den skulle vara en distraktion.

Om systemet beslutar att det icke-personliga svaret är bättre för noggrannheten, kastas inte expertversionen bort. Istället fångas det som modellen lär sig från det svaret upp i en lättviktig komponent som kallas en LoRA-adapter, vilket gör det möjligt att tillämpa expertliknande resonemang senare.

Att sätta PRISM på prov

Forskarna testade PRISM med 12 personligheter för att se hur det kunde hantera ämnen som medicin och juridik. För tester som byggde på ren kunskap minskade AI:s noggrannhet när en expertpersonlighet lades till. Men för skriv- och säkerhetsuppgifter gjorde personligheterna AI bättre.

Sammantaget höjde PRISM AI:s totala poäng med en till två poäng, beroende på modellen på MT-Bench. Detta test mäter hur väl en AI följer instruktioner och upprätthåller en hjälpsam ton.

”PRISM förbättrar preferens- och säkerhetsanpassningen vid generativa uppgifter samtidigt som noggrannheten bibehålls vid diskriminerande uppgifter i alla testade LLM:er, vilket fungerar som ett starkt bevis på våra resultat”, kommenterade teamet i sin artikel.

Arbetet med PRISM kommer att fortsätta, bland annat med tester med fler personligheter och att göra det ännu smartare när det gäller att gissa vad en användare behöver.

Publiceringsuppgifter

Zizhao Hu et al, Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM, arXiv (2026). DOI: 10.48550/arxiv.2603.18507

Related Articles

Leave a Comment