En dag kan det bli möjligt att använda Large Language Models (LLM) för att automatiskt läsa kliniska anteckningar i journaler och på ett tillförlitligt och effektivt sätt extrahera relevant information för att stödja patientvård eller forskning. Men ny forskning från Columbia University Mailman School of Public Health som använder ChatGPT-4 för att läsa medicinska anteckningar från akutmottagningar för att avgöra om skadade scooter- och cykelförare bar hjälm visar att LLM ännu inte kan göra detta på ett tillförlitligt sätt. Resultaten publiceras i JAMA Network Open.
I en studie av 54 569 akutmottagningsbesök bland patienter som skadats när de cyklade, åkte skoter eller andra mikromobila transportmedel från 2019 till 2022 hade AI LLM svårt att replikera resultaten av en textsträngssökningsbaserad metod för att extrahera hjälmstatus från kliniska anteckningar.
LLM presterade endast bra när prompten innehöll all text som användes i den textsträngsbaserade sökmetoden. LLM hade också svårt att replikera sitt arbete mellan försöken under var och en av fem på varandra följande dagar, den lyckades bättre med att replikera sina hallucinationer än sitt korrekta arbete. Den hade särskilt svårt när fraser negerades, t.ex. när den läste ”utan hjälm” eller ”utan hjälm” och rapporterade att patienten bar hjälm.
Stora mängder medicinskt relevant data ingår i elektroniska journaler i form av skriftliga kliniska anteckningar, en typ av ostrukturerad data. Effektiva sätt att läsa och extrahera information från dessa anteckningar skulle vara till stor nytta för forskningen.
För närvarande kan information från dessa kliniska anteckningar extraheras med hjälp av enkla strängmatchande textsökmetoder eller genom mer sofistikerade AI-baserade metoder som naturlig språkbehandling. Förhoppningen var att en ny LLM, som ChatGPT-4, skulle kunna extrahera information snabbare och mer tillförlitligt.
”Även om vi ser potentiella effektivitetsvinster i att använda den generativa AI LLM för informationsutvinningsuppgifter, begränsar frågor om tillförlitlighet och hallucinationer för närvarande dess användbarhet”, säger Andrew Rundle, DrPH, professor i epidemiologi vid Columbia Mailman School och seniorförfattare.
”När vi använde mycket detaljerade uppmaningar som inkluderade alla textsträngar relaterade till hjälmar, kunde ChatGPT-4 vissa dagar extrahera korrekta data från de kliniska anteckningarna. Men den tid som krävdes för att definiera och testa all text som måste inkluderas i uppmaningen och ChatGPT-4: s oförmåga att replikera sitt arbete, dag efter dag, indikerar för oss att ChatGPT-4 ännu inte var upp till denna uppgift.”
Med hjälp av offentligt tillgängliga data från 2019 till 2022 från U.S. Consumer Product Safety Commission’s National Electronic Injury Surveillance System, ett urval av 96 amerikanska sjukhus, analyserade Rundle och hans kollegor akutmottagningarnas journaler för patienter som skadats i olyckor med elcyklar, cyklar, hoverboards och elektriska scootrar. De jämförde resultaten av ChatGPT-4:s analyser av journalerna med data som genererats med hjälp av mer traditionella textsträngbaserade sökningar, och för 400 journaler jämförde de ChatGPT:s analyser med sin egen läsning av de kliniska anteckningarna i journalerna.
Denna forskning bygger vidare på deras arbete med att studera hur man kan förebygga skador bland användare av mikromobilitet (dvs. cyklister, elcykelförare och scooterförare). ”Hjälmanvändning är en nyckelfaktor för skadans allvarlighetsgrad, men i de flesta journaler och incidentrapporter från akutmottagningar är informationen om hjälmanvändning begravd i de kliniska anteckningar som skrivs av läkaren eller ambulanspersonalen. Det finns ett stort forskningsbehov för att på ett tillförlitligt och effektivt sätt kunna få tillgång till denna information”, säger Kathryn Burford, huvudförfattare till rapporten och postdoktor vid avdelningen för epidemiologi vid Mailman School.
”Vår studie undersökte potentialen hos en LLM för att extrahera information från kliniska anteckningar, en rik källa till information för vårdpersonal och forskare”, säger Rundle. ”Men vid den tidpunkt då vi använde ChatGPT-4 kunde den inte förse oss med data på ett tillförlitligt sätt.”
Medförfattare är Nicole G. Itzkowitz, Columbia Mailman School of Public Health; Ashley G. Ortega, Columbia Population Research Center; och Julien O. Teitler, Columbia School of Social Work.
För mer information: Kathryn G. Burford et al, Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes, JAMA Network Open (2024). DOI: 10.1001/jamanetworkopen.2024.25981