Syntetiska röster blir en allt större del av våra liv, från digitala assistenter som Siri och Alexa till automatiserade telemarketers och telefonsvarare.
I takt med den generativa AI:ns framväxt har en ny typ av syntetisk röst utvecklats: röstkloner, som kan återskapa en exakt kopia av en persons röst utifrån bara några sekunders inspelat tal.
Studie visar att kloner slår människor
I Journal of the Acoustical Society of America utvärderade två forskare från University College London och University of Roehampton förståeligheten hos människor och röstkloner. De fann att röstkloner är lättare att förstå än människor i bullriga miljöer.
Röstkloner skiljer sig från traditionella syntetiska röster i fråga om hur mycket sampling de kräver. Syntetiska röster som Siri kräver att en röstskådespelare tillbringar timmar i en inspelningsstudio. Däremot kan en röstklon skapas från så lite som 10 sekunders tal, vilket avsevärt utökar antalet potentiella röster samt antalet potentiella tillämpningar.
Forskarna Patti Adank och Han Wang är specialiserade på att studera människors uppfattning av otydligt tal och fascinerades av idén om maskinreplikerat tal.
Överraskande resultat hos lyssnarna
En nyckelfråga de ville besvara var hur lätt det är för en genomsnittlig person att förstå röstkloner. De misstänkte att röstkloner helt enkelt skulle vara dåliga återgivningar av verkliga mänskliga röster och att människor skulle ha svårt att förstå dem. Det de fann kunde inte vara mer annorlunda.
”Jag trodde först att röstkloner skulle vara mindre begripliga eftersom de var obekanta”, sa Adank. ”Jag fann att de var upp till 20 % mer begripliga, vilket var ganska chockerande. En liten del av vår artikel handlar om det experimentet, och sedan handlar en stor del om att jag och min kollega frenetiskt försöker ta reda på vad det är som gör dessa röstkloner mer begripliga.”
Duon presenterade inledningsvis frivilliga för mänskliga röster och röstkloner och bad dem att betygsätta deras begriplighet.
Efter att ha konstaterat att röstkloner genomgående bedömdes som lättare att förstå, upprepade de experimentet med äldre frivilliga för att avgöra om nedsatt hörsel påverkar resultatet; med amerikanska frivilliga – den ursprungliga gruppen var brittisk – för att bedöma om accenten spelar någon roll; och med ett filter utformat för att efterlikna cochleaimplantat. I samtliga fall visade sig röstklonerna vara överlägsna.
På jakt efter varför kloner utmärker sig
Efter att ha granskat över 100 akustiska mätningar anser Adank att det enda sättet att lösa mysteriet är att samarbeta med forskare som specialiserar sig på text-till-tal-system för att anpassa ett befintligt kloningssystem med öppen källkod.
”Jag ska nu försöka återskapa [effekten] genom att studera hur syntar fungerar och hur de använder digital signalbehandling för att generera dessa röster, bara för att få lite grepp om detta”, sade Adank.
Publikationsuppgifter
Röstkloner är lättare att förstå i brus än sina mänskliga original: fördelen med röstkloningens förståelighet, Journal of the Acoustical Society of America (2026) DOI: 10.1121/10.0043094