Studie avslöjar varför AI-modeller som analyserar medicinska bilder kan vara partiska

by Albert
Medicinbilder

Modeller med artificiell intelligens spelar ofta en roll vid medicinska diagnoser, särskilt när det gäller att analysera bilder som röntgenstrålar. Studier har dock visat att dessa modeller inte alltid fungerar bra i alla demografiska grupper, och att de oftast fungerar sämre för kvinnor och mörkhyade personer.

Dessa modeller har också visat sig utveckla en del överraskande förmågor. År 2022 rapporterade MIT-forskare att AI-modeller kan göra exakta förutsägelser om en patients ras utifrån röntgenbilderna av bröstkorgen – något som de skickligaste radiologerna inte kan göra.

Det forskarlaget har nu funnit att de modeller som är mest exakta när det gäller att göra demografiska förutsägelser också visar de största ”rättvisegapen” – det vill säga skillnader i deras förmåga att korrekt diagnostisera bilder av människor av olika raser eller kön. Resultaten tyder på att dessa modeller kan använda ”demografiska genvägar” när de gör sina diagnostiska utvärderingar, vilket leder till felaktiga resultat för kvinnor, svarta människor och andra grupper, säger forskarna.

”Det är väletablerat att maskininlärningsmodeller med hög kapacitet är bra förutsägelser för mänsklig demografi som självrapporterad ras eller kön eller ålder. Detta papper demonstrerar den kapaciteten igen och kopplar sedan den kapaciteten till bristen på prestanda i olika grupper, vilket aldrig har gjorts, säger Marzyeh Ghassemi, en MIT-docent i elektroteknik och datavetenskap, en medlem av MIT: s Institute for Medical Engineering and Science, och seniorförfattaren till studien.

Forskarna fann också att de kunde träna om modellerna på ett sätt som förbättrar deras rättvisa. Deras metod för ”debiasing” fungerade dock bäst när modellerna testades på samma typer av patienter som de hade tränats på, t.ex. patienter från samma sjukhus. När modellerna tillämpades på patienter från olika sjukhus uppstod skillnaderna i rättvisa igen.

”Jag tror att de viktigaste slutsatserna är följande: För det första bör man noggrant utvärdera alla externa modeller på sina egna data, eftersom de garantier för rättvisa som modellutvecklarna ger på sina träningsdata kanske inte kan överföras till den egna populationen. För det andra bör du träna modeller på dina egna data när det finns tillräckligt med data”, säger Haoran Zhang, doktorand på MIT och en av huvudförfattarna till den nya artikeln.

Yuzhe Yang, doktorand vid MIT, är också en av huvudförfattarna till artikeln, som kommer att publiceras i Nature Medicine. Judy Gichoya, docent i radiologi och bildvetenskap vid Emory University School of Medicine, och Dina Katabi, Thuan and Nicole Pham Professor of Electrical Engineering and Computer Science vid MIT, är också författare till artikeln.

Avlägsna partiskhet

Från och med maj 2024 har FDA godkänt 882 AI-aktiverade medicintekniska produkter, varav 671 är avsedda att användas inom radiologi. Sedan 2022, då Ghassemi och hennes kollegor visade att dessa diagnostiska modeller exakt kan förutsäga ras, har de och andra forskare visat att sådana modeller också är mycket bra på att förutsäga kön och ålder, även om modellerna inte är utbildade för dessa uppgifter.

”Många populära maskininlärningsmodeller har övermänsklig demografisk prediktionskapacitet – radiologer kan inte upptäcka självrapporterad ras från en lungröntgen”, säger Ghassemi. Det här är modeller som är bra på att förutsäga sjukdomar, men som under utbildningen lär sig att förutsäga andra saker som kanske inte är önskvärda.

I den här studien ville forskarna ta reda på varför dessa modeller inte fungerar lika bra för vissa grupper. I synnerhet ville de se om modellerna använde demografiska genvägar för att göra förutsägelser som i slutändan var mindre exakta för vissa grupper. Dessa genvägar kan uppstå i AI-modeller när de använder demografiska attribut för att avgöra om ett medicinskt tillstånd föreligger, istället för att förlita sig på andra egenskaper hos bilderna.

Med hjälp av offentligt tillgängliga röntgendataset från Beth Israel Deaconess Medical Center i Boston tränade forskarna modeller för att förutsäga om patienterna hade ett av tre olika medicinska tillstånd: vätskeansamling i lungorna, kollapsad lunga eller hjärtförstoring. Sedan testade de modellerna på röntgenbilder som inte ingick i träningsdata.

Överlag presterade modellerna bra, men de flesta uppvisade ”rättvisegap” – det vill säga skillnader mellan träffsäkerheten för män och kvinnor samt för vita och svarta patienter.

Modellerna kunde också förutsäga röntgenpersonernas kön, ras och ålder. Dessutom fanns det en signifikant korrelation mellan varje modells träffsäkerhet när det gällde demografiska förutsägelser och storleken på dess rättvisegap. Detta tyder på att modellerna kan använda demografiska kategoriseringar som en genväg för att göra sina sjukdomsförutsägelser.

Forskarna försökte sedan minska rättvisegapet med hjälp av två typer av strategier. För en uppsättning modeller utbildade de dem för att optimera ”undergruppsrobusthet”, vilket innebär att modellerna belönas för att ha bättre prestanda för den undergrupp som de har sämst prestanda för, och straffas om deras felfrekvens för en grupp är högre än de andra.

I en annan uppsättning modeller tvingade forskarna dem att ta bort all demografisk information från bilderna, med hjälp av ”gruppkontradiktiva” metoder. Båda dessa strategier fungerade ganska bra, fann forskarna.

”För data som inte är distribuerade kan man använda befintliga metoder för att minska rättvisegapet utan att göra betydande avvägningar i den totala prestandan”, säger Ghassemi. ”Metoder för undergruppsrobusthet tvingar modeller att vara känsliga för att felaktigt förutsäga en specifik grupp, och metoder för gruppmotstånd försöker ta bort gruppinformation helt.”

Inte alltid mer rättvist

Dessa metoder fungerade dock bara när modellerna testades på data från samma typer av patienter som de tränats på – till exempel bara patienter från Beth Israel Deaconess Medical Center-datasetet.

När forskarna testade modellerna som hade ”debiased” med hjälp av BIDMC-data för att analysera patienter från fem andra sjukhusdataset, fann de att modellernas övergripande noggrannhet förblev hög, men att vissa av dem uppvisade stora rättviseluckor.

”Om man förbättrar modellen i en uppsättning patienter är det inte säkert att den är rättvis när man går över till en ny uppsättning patienter från ett annat sjukhus på en annan plats”, säger Zhang.

Detta är oroväckande eftersom sjukhusen i många fall använder modeller som har utvecklats med hjälp av data från andra sjukhus, särskilt i de fall där en standardmodell köps in, menar forskarna.

”Vi upptäckte att även de senaste modellerna, som har optimala prestanda i data som liknar deras träningsuppsättningar, inte är optimala – det vill säga att de inte gör den bästa avvägningen mellan övergripande prestanda och undergruppsprestanda – i nya miljöer”, säger Ghassemi. ”Tyvärr är det faktiskt så här en modell sannolikt kommer att distribueras. De flesta modeller tränas och valideras med data från ett sjukhus eller en annan källa och används sedan i stor skala.”

Forskarna upptäckte att de modeller som hade testats med hjälp av gruppkontradiktiva metoder var något mer rättvisa när de testades på nya patientgrupper än de modeller som hade testats med hjälp av robusthetsmetoder för undergrupper. De planerar nu att försöka utveckla och testa ytterligare metoder för att se om de kan skapa modeller som gör ett bättre jobb med att göra rättvisa förutsägelser på nya dataset.

Resultaten tyder på att sjukhus som använder den här typen av AI-modeller bör utvärdera dem på sin egen patientpopulation innan de börjar använda dem, för att säkerställa att de inte ger felaktiga resultat för vissa grupper.

Mer information om detta: Gränserna för rättvis medicinsk bildbehandling AI i generalisering i den verkliga världen, Nature Medicine (2024). DOI: 10.1038/s41591-024-03113-4

Related Articles

Leave a Comment