Använda AI för att avkoda hundläten

by Albert
Ett AI-verktyg som utvecklats vid University of Michigan kan skilja lekfulla skäll från aggressiva - och dessutom identifiera hundens ålder, kön och ras. Kredit: Marcin Szczepanski/Michigan Engineering.

Har du någonsin önskat att du kunde förstå vad din hund försöker säga till dig? Forskare vid University of Michigan utforskar möjligheterna med AI och utvecklar verktyg som kan identifiera om en hunds skall förmedlar lekfullhet eller aggressivitet.

Samma modeller kan också utläsa annan information ur djurens läten, t.ex. ålder, ras och kön. Studien, som är ett samarbete med Mexikos nationella institut för astrofysik, optik och elektronik (INAOE) i Puebla, visar att AI-modeller som ursprungligen tränats på mänskligt tal kan användas som utgångspunkt för att träna nya system som är inriktade på djurkommunikation.

Resultaten presenterades vid Joint International Conference on Computational Linguistics, Language Resources and Evaluation. Studien är publicerad på arXiv preprint server.

”Genom att använda talbehandlingsmodeller som ursprungligen tränats på mänskligt tal öppnar vår forskning ett nytt fönster för hur vi kan utnyttja det vi hittills byggt upp inom talbehandling för att börja förstå nyanserna i hundskall”, säger Rada Mihalcea, Janice M. Jenkins Collegiate Professor of Computer Science and Engineering och chef för U-M:s AI Laboratory.

”Det finns så mycket vi ännu inte vet om de djur som delar denna värld med oss. Framsteg inom AI kan användas för att revolutionera vår förståelse av djurkommunikation, och våra resultat tyder på att vi kanske inte behöver börja från början.”

Ett av de största hindren för att utveckla AI-modeller som kan analysera djurläten är bristen på offentligt tillgängliga data. Det finns många resurser och möjligheter för att spela in mänskligt tal, men det är svårare att samla in sådana data från djur.

”Djurvokaliseringar är logistiskt mycket svårare att begära och spela in”, säger Artem Abzaliev, huvudförfattare och U-M-doktorand i datavetenskap och teknik. ”De måste passivt spelas in i naturen eller, när det gäller husdjur, med ägarens tillstånd.”

Artem Abzaliev och hans hund Nova i Nürnberg, Tyskland. Den AI-mjukvara som han utvecklat tillsammans med Rada Mihalcea och Humberto Pérez-Espinosa kan identifiera om en hunds skällande är lekfullt eller aggressivt samt identifiera ras, kön och ålder. Kredit: Abzaliev

Artem Abzaliev och hans hund Nova i Nürnberg, Tyskland. Den AI-mjukvara som han utvecklat tillsammans med Rada Mihalcea och Humberto Pérez-Espinosa kan identifiera om en hunds skällande är lekfullt eller aggressivt samt identifiera ras, kön och ålder. Kredit: Abzaliev

På grund av bristen på användbara data har det visat sig svårt att utveckla tekniker för att analysera hundars läten, och de tekniker som finns begränsas av bristen på utbildningsmaterial. Forskarna övervann dessa utmaningar genom att återanvända en befintlig modell som ursprungligen utformades för att analysera mänskligt tal.

Detta tillvägagångssätt gjorde det möjligt för forskarna att utnyttja robusta modeller som utgör ryggraden i de olika röstaktiverade tekniker som vi använder idag, inklusive röst-till-text och språköversättning. Dessa modeller är tränade att urskilja nyanser i mänskligt tal, som ton, tonhöjd och accent, och omvandla denna information till ett format som en dator kan använda för att identifiera vilka ord som sägs, känna igen den person som talar och mycket mer.

”De här modellerna kan lära sig och koda de otroligt komplexa mönster som finns i mänskligt språk och tal”, säger Abzaliev. ”Vi ville se om vi kunde utnyttja denna förmåga för att urskilja och tolka hundskall.”

Forskarna använde ett dataset med hundvokaliseringar som spelats in från 74 hundar av varierande ras, ålder och kön, i en mängd olika sammanhang. Humberto Pérez-Espinosa, en medarbetare vid INAOE, ledde det team som samlade in datauppsättningen. Abzaliev använde sedan inspelningarna för att modifiera en maskininlärningsmodell – en typ av datoralgoritm som identifierar mönster i stora datamängder. Teamet valde en talrepresentationsmodell som heter Wav2Vec2, som ursprungligen utbildades på mänsklig taldata.

Med hjälp av denna modell kunde forskarna generera representationer av de akustiska data som samlats in från hundarna och tolka dessa representationer. De fann att Wav2Vec2 inte bara klarade fyra klassificeringsuppgifter, utan också överträffade andra modeller som tränats specifikt på data från hundskall, med noggrannhetssiffror på upp till 70%.

”Det här är första gången som tekniker som är optimerade för mänskligt tal har använts för att avkoda kommunikation från djur”, säger Mihalcea. ”Våra resultat visar att de ljud och mönster som härrör från mänskligt tal kan fungera som en grund för att analysera och förstå de akustiska mönstren i andra ljud, t.ex. djurläten.”

Förutom att etablera modeller för mänskligt tal som ett användbart verktyg för att analysera djurkommunikation – vilket kan vara till nytta för biologer, djurbeteendevetare med flera – har denna forskning viktiga konsekvenser för djurens välbefinnande. Att förstå nyanserna i hundars vokaliseringar kan avsevärt förbättra hur människor tolkar och svarar på hundars känslomässiga och fysiska behov, och därmed förbättra deras vård och förhindra potentiellt farliga situationer, säger forskarna.

Ytterligare information: Artem Abzaliev et al, Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification, arXiv (2024). DOI: 10.48550/arxiv.2404.18739

Related Articles

Leave a Comment