Ny teknik förbättrar AI:s förmåga att kartlägga 3D-rymd med 2D-kameror

by Albert
MvACon Kredit: Liu et al.

Forskare har utvecklat en teknik som gör det möjligt för program för artificiell intelligens (AI) att bättre kartlägga tredimensionella utrymmen med hjälp av tvådimensionella bilder tagna av flera kameror. Eftersom tekniken fungerar effektivt med begränsade beräkningsresurser är den lovande när det gäller att förbättra navigeringen av autonoma fordon.

”De flesta autonoma fordon använder kraftfulla AI-program som kallas vision transformers för att ta 2D-bilder från flera kameror och skapa en representation av 3D-utrymmet runt fordonet”, säger Tianfu Wu, motsvarande författare till en artikel om arbetet och docent i elektro- och datateknik vid North Carolina State University. ”Men även om vart och ett av dessa AI-program har olika angreppssätt finns det fortfarande stort utrymme för förbättringar.

”Vår teknik, som kallas Multi-View Attentive Contextualization (MvACon), är ett plug-and-play-tillägg som kan användas tillsammans med dessa befintliga visionstransformator-AI:er för att förbättra deras förmåga att kartlägga 3D-utrymmen”, säger Wu. ”Vision transformers får inga ytterligare data från sina kameror, de kan bara använda data på ett bättre sätt.”

MvACon fungerar effektivt genom att modifiera ett tillvägagångssätt som kallas Patch-to-Cluster attention (PaCa), som Wu och hans medarbetare släppte förra året. PaCa gör det möjligt för transformerande AI att på ett mer effektivt sätt identifiera objekt i en bild.

”Det viktigaste framsteget här är att tillämpa det vi demonstrerade med PaCa på utmaningen att kartlägga 3D-utrymme med flera kameror”, säger Wu.

För att testa MvACons prestanda använde forskarna den tillsammans med tre ledande visionstransformatorer – BEVFormer, BEVFormer DFA3D-varianten och PETR. I samtliga fall samlade visionstransformatorerna in 2D-bilder från sex olika kameror. I alla tre fallen förbättrade MvACon prestandan avsevärt för varje visionstransformator.

”Prestandan förbättrades särskilt när det gällde att lokalisera objekt, samt hastigheten och orienteringen för dessa objekt”, säger Wu. ”Och ökningen av beräkningsbehovet när MvACon lades till i visionstransformatorerna var nästan försumbar.

”I våra nästa steg ingår att testa MvACon mot ytterligare referensdataset, samt att testa det mot faktisk videoinmatning från autonoma fordon. Om MvACon fortsätter att överträffa de befintliga vision transformers är vi optimistiska om att det kommer att antas för utbredd användning.”

Artikeln, ”Multi-View Attentive Contextualization for Multi-View 3D Object Detection”, kommer att presenteras den 20 juni på IEEE/CVF Conference on Computer Vision and Pattern Recognition, som hålls i Seattle, Wash.

Försteförfattare till artikeln är Xianpeng Liu, som nyligen disputerat vid NC State. Medförfattare till artikeln är Ce Zheng och Chen Chen från University of Central Florida, Ming Qian och Nan Xue från Ant Group samt Zhebin Zhang och Chen Li från OPPO U.S. Research Center.

Ytterligare information: Xianpeng Liu et al, Multi-View Attentive Contextualization for Multi-View 3D Object Detection. (2024).

Related Articles

Leave a Comment