Stora AI-företag använder användarnas konversationer för utbildningsändamål, vilket väcker betydande integritetsfrågor och understryker behovet av mer transparenta policyer.
Förra månaden gjorde Anthropic en tyst ändring i sina användarvillkor för kunder: Konversationer du har med deras AI-chattbot, Claude, kommer som standard att användas för att träna deras stora språkmodell, såvida du inte väljer att avstå.
Anthropic är inte ensamt om att anta denna policy. En ny studie av integritetspolicyer hos banbrytande utvecklare visade att sex ledande amerikanska företag matar in användarinformation i sina modeller för att förbättra funktionerna och vinna marknadsandelar. Vissa ger konsumenterna möjlighet att välja bort detta, medan andra inte gör det.
Bör användare av AI-drivna chatt-system oroa sig för sin integritet med tanke på denna trend? ”Absolut ja”, säger Jennifer King, forskare inom integritets- och datapolicy vid Stanford Institute for Human-Centered AI och huvudförfattare till studien som publicerats på arXiv preprint server.
”Om du delar känslig information i en dialog med ChatGPT, Gemini eller andra banbrytande modeller kan den samlas in och användas för träning, även om den finns i en separat fil som du laddat upp under konversationen.”
King och hennes team av forskare vid Stanford granskade AI-utvecklarnas integritetspolicy och identifierade flera orsaker till oro, bland annat långa datalagringstider, träning på barns data och en allmän brist på transparens och ansvarsskyldighet i utvecklarnas integritetspraxis. Mot bakgrund av dessa resultat bör konsumenter tänka sig för två gånger innan de delar information i AI-chattkonversationer och, när det är möjligt, aktivt välja bort att deras data används för träning.
Historiken bakom integritetspolicyn
Som kommunikationsverktyg är den integritetspolicy från internetåldern som nu tillämpas på AI-chattar djupt bristfällig. Dessa dokument är vanligtvis skrivna i invecklat juridiskt språk och är svåra för konsumenterna att läsa och förstå. Ändå måste vi godkänna dem om vi vill besöka webbplatser, göra sökningar i sökmotorer och interagera med stora språkmodeller (LLM).
Under de senaste fem åren har AI-utvecklare skrapat in enorma mängder information från det offentliga internet för att träna sina modeller, en process som oavsiktligt kan dra in personlig information i deras datamängder.
”Vi har hundratals miljoner människor som interagerar med AI-chattbottar, som samlar in personuppgifter för träning, och nästan ingen forskning har bedrivits för att undersöka sekretesspraxis för dessa nya verktyg”, förklarar King.
I USA, tillägger hon, kompliceras integritetsskyddet för personuppgifter som samlas in av eller delas med LLM-utvecklare av en lappverk av lagar på delstatsnivå och avsaknaden av federal reglering.
I ett försök att fylla denna forskningslucka jämförde Stanford-teamet integritetspolicyn hos sex amerikanska företag: Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) och OpenAI (ChatGPT). De analyserade ett nätverk av dokument för varje LLM, inklusive dess publicerade integritetspolicyer, länkade delpolicyer och tillhörande FAQ och vägledning som är tillgängliga från chattgränssnitten, totalt 28 långa dokument.
För att utvärdera dessa policyer följde forskarna en metodik som används av California Consumer Privacy Act, eftersom det är den mest omfattande integritetslagen i USA och alla sex pionjärutvecklare är skyldiga att följa den. För varje företag analyserade forskarna språket i dokumentationen för att urskilja hur de angivna policyerna behandlar tre frågor:
- Används användarnas inmatningar till chattbottar för att träna eller förbättra LLM?
- Vilka källor och kategorier av personliga konsumentuppgifter samlas in, lagras och behandlas för att träna eller förbättra LLM?
- Vilka alternativ har användarna för att välja att deras chattar ska användas för träning eller inte?
Suddig gräns
Forskarna fann att alla sex företag använder användarnas chattdata som standard för att träna sina modeller, och vissa utvecklare lagrar denna information i sina system på obestämd tid. Vissa, men inte alla, företag uppger att de avidentifierar personuppgifter innan de används för träningsändamål. Och vissa utvecklare tillåter människor att granska användarnas chattranskriptioner för modellträningsändamål.
När det gäller företag med flera produkter, såsom Google, Meta, Microsoft och Amazon, slås användarnas interaktioner också rutinmässigt samman med information som hämtas från andra produkter som konsumenterna använder på dessa plattformar – sökfrågor, försäljning/köp, engagemang i sociala medier och liknande.
Dessa metoder kan bli problematiska när användarna till exempel delar personliga biometriska data och hälsodata utan att tänka på konsekvenserna. Här är ett realistiskt scenario: Tänk dig att du ber en LLM om middagsidéer. Kanske anger du att du vill ha recept med lågt sockerinnehåll eller hjärtvänliga recept. Chattboten kan dra slutsatser från den informationen, och algoritmen kan besluta att du passar in i en klassificering som en hälsovårdsutsatt person.
”Denna bedömning sipprar igenom utvecklarens ekosystem. Du börjar se annonser för mediciner, och det är lätt att se hur denna information kan hamna i händerna på ett försäkringsbolag. Effekterna sprider sig över tid”, förklarar King.
En annan varningssignal som forskarna upptäckte gäller barns integritet: Utvecklarnas praxis varierar i detta avseende, men de flesta vidtar inga åtgärder för att ta bort barns information från sina datainsamlings- och modellträningsprocesser. Google meddelade tidigare i år att man skulle träna sina modeller på data från tonåringar, om de samtycker till det.
Anthropic säger däremot att man inte samlar in barns data och inte tillåter användare under 18 år att skapa konton, även om man inte kräver åldersverifiering. Microsoft säger att man samlar in data från barn under 18 år, men inte använder den för att bygga språkmodeller. Alla dessa metoder väcker frågor om samtycke, eftersom barn inte lagligen kan samtycka till insamling och användning av sina data.
Integritetsskyddande AI
Stanfordforskarna konstaterade generellt att utvecklarnas integritetspolicy saknar viktig information om deras praxis. De rekommenderar beslutsfattare och utvecklare att ta itu med de utmaningar som LLM-drivna chattbottar innebär för dataintegriteten genom omfattande federala integritetsregler, aktivt samtycke för modellträning och filtrering av personlig information från chattinmatningar som standard.
”Som samhälle måste vi väga om de potentiella vinsterna i AI-kapacitet från träning på chattdata är värda den betydande förlusten av konsumenternas integritet. Och vi måste främja innovation inom integritetsskyddande AI, så att användarnas integritet inte blir en eftertanke”, avslutar King.
Mer information: Jennifer King et al, User Privacy and Large Language Models: An Analysis of Frontier Developers’ Privacy Policies, arXiv (2025). DOI: 10.48550/arxiv.2509.05382