AI-genererade röster är nu omöjliga att skilja från riktiga mänskliga röster

by Albert
tjej som lyssnar på ai-röst

Många människor tycker fortfarande att AI-genererat tal låter ”falskt” eller övertygande och lätt kan skiljas från mänskliga röster. Men ny forskning från Queen Mary University of London visar att AI-rösttekniken nu har nått ett stadium där den kan skapa ”röstkloner” eller deepfakes som låter lika realistiska som mänskliga inspelningar.

Arbetet har publicerats i PLOS One.

I studien jämfördes riktiga mänskliga röster med två olika typer av syntetiska röster, genererade med hjälp av toppmoderna AI-röstsyntesverktyg. Vissa var ”klonade” från röstinspelningar av riktiga människor, avsedda att imitera dem, och andra genererades från en stor röstmodell och hade ingen specifik mänsklig motsvarighet.

Deltagarna ombads att utvärdera vilka röster som lät mest realistiska och vilka som lät mest dominerande eller trovärdiga. Forskarna undersökte också om AI-genererade röster hade blivit ”hyperrealistiska”, med tanke på att vissa studier har visat att AI-genererade bilder av ansikten nu oftare bedöms vara mänskliga än bilder av riktiga mänskliga ansikten.

Studien fann inte någon ”hyperrealism-effekt” hos AI-rösterna, men fann att röstkloner kan låta lika verkliga som mänskliga röster, vilket gör det svårt för lyssnarna att skilja mellan dem. Båda typerna av AI-genererade röster bedömdes vara mer dominerande än mänskliga röster, och vissa uppfattades också som mer trovärdiga.

Dr Nadine Lavan, seniorlektor i psykologi vid Queen Mary University of London, som var med och ledde studien, sa: ”AI-genererade röster finns överallt omkring oss nu. Vi har alla pratat med Alexa eller Siri, eller fått våra samtal besvarade av automatiserade kundtjänstsystem.

”Dessa saker låter inte riktigt som riktiga mänskliga röster, men det var bara en tidsfråga innan AI-tekniken började producera naturligt, mänskligt klingande tal. Vår studie visar att den tiden har kommit, och vi måste snabbt förstå hur människor uppfattar dessa realistiska röster.”

Dr Lavan påpekade hur enkelt och snabbt teamet hade kunnat skapa kloner, eller deepfakes, av riktiga röster (med ägarnas samtycke) med hjälp av kommersiellt tillgänglig programvara. ”Processen krävde minimal expertis, bara några minuters röstinspelningar och nästan inga pengar”, sa hon. ”Det visar bara hur tillgänglig och sofistikerad AI-rösttekniken har blivit.”

Förbättringstakten har varit mycket snabb, konstaterade Dr Lavan, och har många implikationer för etik, upphovsrätt och säkerhet, särskilt inom områden som felaktig information, bedrägeri och identitetsstöld.

”Men möjligheten att generera realistiska röster i stor skala öppnar upp spännande möjligheter”, fortsatte hon. ”Det kan finnas tillämpningar för förbättrad tillgänglighet, utbildning och kommunikation, där skräddarsydda syntetiska röster av hög kvalitet kan förbättra användarupplevelsen.”

Mer information: Röstkloner låter realistiska men inte (ännu) hyperrealistiska, PLOS One (2025). DOI: 10.1371/journal.pone/0332692

Related Articles

Leave a Comment