Hörlurar med brusreducering är en gudagåva för dig som bor och arbetar i bullriga miljöer. De identifierar automatiskt bakgrundsljud och tar bort dem för att ge välbehövlig lugn och ro. Typisk brusreducering lyckas dock inte skilja mellan oönskade bakgrundsljud och viktig information, vilket gör att användare av hörlurar inte är medvetna om sin omgivning.
Shyam Gollakota, från University of Washington, är expert på att använda AI-verktyg för ljudbehandling i realtid. Hans team har skapat ett system för riktad taluppfattning i bullriga miljöer och utvecklat AI-baserade hörlurar som selektivt filtrerar bort specifika ljud samtidigt som andra ljud bevaras. Han presenterar sitt arbete den 16 maj, som en del av ett gemensamt möte för Acoustical Society of America och Canadian Acoustical Association, som pågår 13-17 maj på Shaw Center i centrala Ottawa, Ontario, Kanada.
”Tänk dig att du är i en park och beundrar fågelkvitter, men så hör du en grupp människor i närheten som bara inte kan sluta prata”, säger Gollakota. ”Tänk om dina hörlurar kunde ge dig möjlighet att fokusera på fågelkvittret medan resten av bullret bara försvinner. Det är precis vad vi ville uppnå med vårt system.”
Gollakota och hans team kombinerade brusreducerande teknik med ett smartphonebaserat neuralt nätverk som tränats att identifiera 20 olika kategorier av miljöljud. Dessa inkluderar väckarklockor, gråtande spädbarn, sirener, bilhorn och fågelsång. När en användare väljer en eller flera av dessa kategorier identifierar programvaran dessa ljud och spelar upp dem i hörlurarna i realtid samtidigt som allt annat filtreras bort.
Att få det här systemet att fungera sömlöst var dock inte en lätt uppgift.
”För att uppnå det vi vill behövde vi först en intelligens på hög nivå för att identifiera alla olika ljud i en miljö”, säger Gollakota.
”Sedan behövde vi separera målljuden från alla störande ljud. Som om inte detta vore svårt nog måste de ljud vi extraherade synkroniseras med användarens visuella sinnen, eftersom de inte kan höra någon två sekunder för sent. Detta innebär att algoritmerna i de neurala nätverken måste bearbeta ljud i realtid på under en hundradels sekund, vilket vi lyckades med.”
Teamet använde denna AI-drivna metod för att fokusera på mänskligt tal. Med hjälp av liknande innehållsmedvetna tekniker kan deras algoritm identifiera en talare och isolera dennes röst från omgivande brus i realtid för tydligare konversationer.
Gollakota är entusiastisk över att få vara med och utveckla nästa generations ljudenheter.
”Vi har en mycket unik möjlighet att skapa framtidens intelligenta hörlurar som kan förbättra människans hörselförmåga och öka intelligensen för att göra livet bättre”, säger Gollakota.
Ytterligare information: Technical program: https://eppro02.ativ.me/src/EventPilot/php/express/web/planner.php?id=ASASPRING24