Nytt datorseendeverktyg kan räkna skadade byggnader i krisområden och göra exakta uppskattningar av fågelflockars storlek

by Albert
Palu-tsunamin, som drabbade Indonesien 2018. Uppgifterna bestod av 113 högupplösta satellitbilder. Räkningar av byggnaderna och deras skadenivåer samlades in per kakel med hjälp av satellitbilder före och efter katastrofen. Färger indikerar olika nivåer av skador (röd = förstörd), och DISCount gav en uppskattning av skadade byggnader per underregion. Kredit: Förhandlingar från AAAI-konferensen om artificiell intelligens (2024). DOI: 10.1609/aaai.v38i20.30235

Ett team av datavetare vid University of Massachusetts Amherst som arbetar med två olika problem – hur man snabbt upptäcker skadade byggnader i krisområden och hur man exakt uppskattar storleken på fågelflockar – tillkännagav nyligen ett AI-ramverk som kan göra båda. Ramverket, som kallas DISCount, blandar hastigheten och den massiva datakraften hos artificiell intelligens med tillförlitligheten hos mänsklig analys för att snabbt leverera tillförlitliga uppskattningar som snabbt kan hitta och räkna specifika funktioner från mycket stora samlingar av bilder.

Forskningen, som publicerades i Proceedings of the AAAI Conference on Artificial Intelligence, har belönats av den organisationen med ett pris för bästa artikel om AI för social påverkan.

”DISCount kom till som två mycket olika tillämpningar”, säger Subhransu Maji, biträdande professor i informations- och datavetenskap vid UMass Amherst och en av författarna till artikeln. ”Genom UMass Amhersts Center for Data Science har vi arbetat med Röda Korset i flera år och hjälpt dem att bygga ett datorseendeverktyg som exakt kunde räkna byggnader som skadats under händelser som jordbävningar eller krig. Samtidigt hjälpte vi ornitologer vid Colorado State University och University of Oklahoma som var intresserade av att använda väderradardata för att få exakta uppskattningar av storleken på fågelflockar.”

Maji och hans medförfattare, huvudförfattaren Gustavo Pérez, som genomförde denna forskning som en del av sin doktorandutbildning vid UMass Amherst, och Dan Sheldon, biträdande professor i informations- och datavetenskap vid UMass Amherst, trodde att de kunde lösa problemen med skadade byggnader och fågelflockar med datorseende, en typ av AI som kan skanna enorma bildarkiv på jakt efter något särskilt – en fågel, en ruinhög – och räkna den.

Men teamet stötte på samma hinder i varje projekt. ”Standardmodellerna för datorseende var inte tillräckligt exakta”, säger Pérez. ”Vi ville bygga automatiserade verktyg som kunde användas av icke-AI-experter, men som kunde ge en högre grad av tillförlitlighet.”

Svaret, säger Sheldon, var att i grunden ompröva de typiska metoderna för att lösa räkneproblem.

”Vanligtvis låter man antingen människor göra tidsintensiva och noggranna handräkningar av en mycket liten datauppsättning, eller så låter man datorseende köra mindre noggranna automatiserade räkningar av enorma datauppsättningar”, säger Sheldon. ”Vi tänkte: Varför inte göra både och?”

DISCount är ett ramverk som kan fungera med alla redan befintliga AI-modeller för datorseende. Det fungerar genom att AI analyserar de mycket stora datamängderna – till exempel alla bilder som tagits av en viss region under ett decennium – för att avgöra vilken mindre datamängd som en mänsklig forskare ska titta på.

Denna mindre uppsättning kan till exempel vara alla bilder från några kritiska dagar som datorseendemodellen har fastställt bäst visar omfattningen av byggnadsskador i den regionen. Den mänskliga forskaren kan sedan handräkna de skadade byggnaderna från den mycket mindre uppsättningen bilder och algoritmen kommer att använda dem för att extrapolera antalet byggnader som drabbats över hela regionen. Slutligen kommer DISCount att uppskatta hur exakt den mänskliga uppskattningen är.

”DISCount fungerar betydligt bättre än slumpmässiga urval för de uppgifter vi tittade på”, säger Pérez. ”Och en del av det fina med vårt ramverk är att det är kompatibelt med alla datorvisionsmodeller, vilket gör att forskaren kan välja den bästa AI-metoden för sina behov. Eftersom det också ger ett konfidensintervall, ger det forskarna möjlighet att göra välgrundade bedömningar av hur bra deras uppskattningar är.”

”I efterhand kan vi konstatera att vi hade en relativt enkel idé”, säger Sheldon. ”Men den lilla mentala förändringen – att vi inte behövde välja mellan mänsklig och artificiell intelligens – har låtit oss bygga ett verktyg som är snabbare, mer omfattande och mer tillförlitligt än någon av metoderna på egen hand.”

Ytterligare information: Gustavo Perez et al, DISCount: Counting in Large Image Collections with Detector-Based Importance Sampling, Proceedings of the AAAI Conference on Artificial Intelligence (2024). DOI: 10.1609/aaai.v38i20.30235

Related Articles

Leave a Comment