AI-driven ”sonar” på smarta glasögon spårar blickar och ansiktsuttryck

by Albert
Ekoprofiler för olika mikrofoner när blicken flyttas till olika delar av skärmen. Kredit: Cornell University

Forskare vid Cornell University har utvecklat två tekniker som spårar en persons blick och ansiktsuttryck genom sonarliknande avkänning. Tekniken är tillräckligt liten för att passa på kommersiella smartglasögon eller virtual reality- eller augmented reality-headset, men förbrukar betydligt mindre ström än liknande verktyg som använder kameror.

Båda använder högtalare och mikrofoner monterade på en glasögonbåge för att studsa ohörbara ljudvågor från ansiktet och fånga upp reflekterade signaler som orsakas av ansikts- och ögonrörelser. GazeTrak är det första eyetrackingsystemet som förlitar sig på akustiska signaler. Den andra, EyeEcho, är det första glasögonbaserade systemet som kontinuerligt och exakt registrerar ansiktsuttryck och återskapar dem genom en avatar i realtid.

Enheterna kan användas i flera timmar med ett smartglasögonbatteri och i mer än en dag med ett VR-headset.

”Den är liten, billig och har mycket låg strömförbrukning, så du kan bära den på smarta glasögon varje dag – den tar inte slut på batteriet”, säger Cheng Zhang, biträdande professor i informationsvetenskap. Zhang leder SciFi-labbet (Smart Computer Interfaces for Future Interactions) som har skapat de nya enheterna.

”I en VR-miljö vill man återskapa detaljerade ansiktsuttryck och blickrörelser så att man kan ha bättre interaktion med andra användare”, säger Ke Li, en doktorand som ledde utvecklingen av GazeTrak och EyeEcho.

För GazeTrak placerade forskarna en högtalare och fyra mikrofoner runt insidan av varje ögonbåge i ett par glasögon för att studsa och fånga upp ljudvågor från ögongloben och området runt ögonen. De resulterande ljudsignalerna matas in i en anpassad pipeline för djupinlärning som använder artificiell intelligens för att dra slutsatser om riktningen på personens blick kontinuerligt.

För EyeEcho är en högtalare och en mikrofon placerade bredvid glasögonens gångjärn och pekar nedåt för att fånga upp hudrörelser när ansiktsuttrycken förändras. De reflekterade signalerna tolkas också med hjälp av AI.

Med den här tekniken kan användarna ha handsfreevideosamtal via en avatar, även på ett bullrigt kafé eller på gatan. Vissa smarta glasögon har förmågan att känna igen ansikten eller skilja mellan några specifika uttryck, men för närvarande finns det inga som spårar uttryck kontinuerligt som EyeEcho.

De här två framstegen har fler användningsområden än att förbättra en persons VR-upplevelse. GazeTrak skulle kunna användas tillsammans med skärmläsare för att läsa upp delar av text för personer med nedsatt syn när de tittar på en webbplats.

GazeTrak och EyeEcho skulle också kunna användas för att diagnostisera eller övervaka neurodegenerativa sjukdomar, som Alzheimers och Parkinsons. Vid dessa sjukdomar har patienterna ofta onormala ögonrörelser och mindre uttrycksfulla ansikten, och den här typen av teknik skulle kunna spåra sjukdomsförloppet bekvämt hemma hos patienten.

Li kommer att presentera GazeTrak vid Annual International Conference on Mobile Computing and Networking i höst och EyeEcho vid Association of Computing Machinery CHI-konferensen om mänskliga faktorer i datorsystem i maj.

Resultaten publiceras på preprint-servern arXiv.

Ytterligare information: Ke Li et al, GazeTrak: Exploring Acoustic-based Eye Tracking on a Glass Frame, arXiv (2024). DOI: 10.48550/arxiv.2402.14634

Related Articles

Leave a Comment