Ett nytt tillvägagångssätt för att effektivt modellera akustiken i en miljö

by Albert
Aktiv akustisk sampling. En agent måste på ett intelligent sätt navigera i en icke kartlagd 3D-scen och aktivt sampla audiovisuella ögonblicksbilder (scenens akustiska kontext) för att konstruera en akustisk modell av miljön, givet begränsad navigeringstid och en fast samplingsbudget. När en fråga ställs om en godtycklig ljudkällas position och mottagarens placering i rummet, ska den inlärda akustiska modellen för miljön exakt generera motsvarande rumsimpulssvar (RIR) vid den positionen, där en RIR är en vågfunktion som fångar akustiken för en viss scen och ett par av källans och mottagarens placering. Kredit: Somayazulu et al.

Augmented reality (AR) och virtual reality (VR) är utformade för att artificiellt återge upplevelsen av att navigera i vissa miljöer. Under de senaste åren har spel- och underhållningsföretag producerat allt mer uppslukande innehåll som kan nås med hjälp av dessa tekniker.

Vissa beräkningsverktyg kan underlätta skapandet av VR- eller AR-innehåll genom att ingenjörer kan ta fram realistiska modeller av verkliga miljöer. Dessa verktyg inkluderar så kallade miljöakustiska modeller, som är utformade för att på ett tillförlitligt sätt representera hur ljud omvandlas av de fysiska egenskaperna hos olika inomhusmiljöer.

Forskare vid University of Texas i Austin introducerade nyligen ActiveRIR, ett nytt tillvägagångssätt för att effektivt uppskatta och modellera miljöers akustik. Metoden, som presenteras i ett dokument som publicerats på preprint-servern arXiv, använder förstärkningsinlärning för att skapa högkvalitativa akustiska modeller med hjälp av endast ett fåtal akustiska prover.

”Vi har varit intresserade av ämnet effektiv uppskattning av miljöakustik under en tid nu”, säger Arjun Somayazulu och Sagnik Majumder, medförfattare till artikeln, till Tech Xplore.

”I det här sammanhanget syftar ’effektivitet’ på att man använder en begränsad uppsättning akustiska mätningar i en ny 3D-miljö för att uppskatta hela scenens akustik. Att uppskatta scenakustiken kan underlätta AR/VR-applikationer, där man vill återge rumsligt lämpliga ljud för en 3D-scen.”

Konventionella metoder för modellering av akustik kan endast göra tillförlitliga uppskattningar efter analys av en stor mängd ljudprover som samlats in från den aktuella miljön. Detta gör dem opraktiska eftersom de skulle tömma batteriet i VR/AR-enheter och ta lång tid att göra uppskattningar.

”Med denna motivation i åtanke föreslog vi först idén om audiovisuell inlärning av miljöakustik med få bilder, där målet är att förutsäga scenakustiken med hjälp av ett mycket fåtal audiovisuella prover från den”, förklarade Somayazulu och Majumder.

”Detta och andra parallella arbeten begränsas dock av att de slumpmässigt väljer några punkter i scenen för att samla in proverna, vilket kan vara suboptimalt eftersom de slumpmässigt valda punkterna kanske inte är den bästa uppsättningen prover när det gäller att fånga den övergripande scenakustiken.

”Dessutom förutsätter de förkunskaper om miljöns planlösning, som kanske inte är tillgängliga för tidigare okända miljöer, och ignorerar den tid och energi som det skulle ta att fysiskt täcka alla slumpmässigt valda punkter, vilket gör det lite frånkopplat från verkliga tillämpningar.”

Som en del av sin senaste studie har Somayazulu och Majumder försökt åtgärda begränsningarna i sin tidigare föreslagna metod för att modellera miljöakustik med hjälp av en ny uppgift som kallas aktiv akustisk provtagning. Denna uppgift innebär att en förkroppsligad agent rör sig runt i en okänd 3D-miljö, samtidigt som den aktivt bestämmer var den ska samla in audiovisuella prover som bäst kan hjälpa till att uppskatta miljöns akustik.

”Agenten arbetar under både en tidsbudget och en provbudget”, säger Somayazulu och Majumder. ”Medan tidsbudgeten säkerställer att agenten navigerar effektivt, säkerställer provbudgeten att agenten inte samlar in prover som inte ger betydande information om miljöns akustik. Kombinationen av dessa två budgetar förbättrar effektiviteten i den akustiska skattningsuppgiften genom att begränsa den tid och energi som används för uppgiften.”

ActiveRIR-modellen, den metod som introducerades av forskargruppen, består av två primära komponenter som kompletterar varandra. Den första är en policy för audiovisuell provtagning, medan den andra är en modell för akustisk uppskattning.

”Samplingspolicyn tar audiovisuella ögonblicksbilder av miljön i första person och fattar två viktiga beslut: a) hur man ska röra sig i scenen och b) var man ska samla in ett prov för att uppskatta scenens akustik”, säger Somayazulu och Majumder.

”Modellen för akustikuppskattning tar dessa prover och förbättrar kontinuerligt sin uppskattning av den övergripande scenakustiken. Dessa två komponenter har ett symbiotiskt förhållande.”

De två komponenterna i ActiveRIR arbetar nära tillsammans för att i slutändan producera realistiska akustiska modeller av miljön. Samplingspolicyn delar med sig av de mest informativa audiovisuella samplingarna till akustikberäknaren, så att den på ett tillförlitligt sätt kan beräkna akustiken i en viss miljö. Akustikestimatorn hjälper i sin tur samplingspolicyn att styra en förkroppsligad agent till platser där insamling av prover skulle vara till störst nytta för akustiska förutsägelser.

Forskarna utvärderade sitt tillvägagångssätt i en rad tester och jämförde dess prestanda med andra tekniker för att uppskatta akustik. De fann att deras provtagningspolicy fungerade mycket bättre än många befintliga metoder för rörelseplanering och insamling av akustikprover, inklusive toppmoderna tekniker som lär sig att samla in prover på nya platser i en scen.

”Vårt ramverk är modulärt och generaliserbart nog för att stödja flera olika akustiska uppskattningsmodeller, vilket tyder på möjligheten att det kan användas för att förbättra provtagningseffektiviteten hos valfri befintlig hyllmodell, samtidigt som det minimalt äventyrar dess akustiska uppskattningskvalitet”, säger Somayazulu och Majumder.

Det nya tillvägagångssättet som introducerats av forskargruppen kan snart testas i ett bredare spektrum av miljöer där olika agenter används för att samla in audiovisuella prover. I slutändan skulle det kunna bidra till produktionen av mer VR- och AR-innehåll som på ett realistiskt sätt återger ljudet från specifika 3D-scener.

”Hittills har vi testat vår modell i en mycket realistisk plattform för simulering av inomhusmiljöer”, säger Somayazulu och Majumder. ”Framöver skulle det dock vara intressant att utforska hur man kan överbrygga klyftan mellan simulering och den verkliga världen genom att utvärdera hur väl ActiveRIR fungerar på en fysisk robot i ett verkligt inomhusutrymme.”

Ytterligare information: Arjun Somayazulu et al, ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling, arXiv (2024). DOI: 10.48550/arxiv.2404.16216

Related Articles

Leave a Comment