När forskare testar algoritmer som sorterar eller klassificerar data använder de ofta ett beprövat verktyg som kallas Normalized Mutual Information (eller NMI) för att mäta hur väl algoritmens resultat stämmer överens med verkligheten. Men enligt ny forskning är det verktyget kanske inte så tillförlitligt som många tror.
I en artikel publicerad i Nature Communications visar SFI-postdoktoranden Max Jerdee, Alec Kirkley (University of Hong Kong) och SFI-externprofessorn Mark Newman (University of Michigan) att NMI – ett av de mest använda måtten inom datavetenskap och nätverksforskning – kan ge partiska resultat.
”Normaliserad ömsesidig information har använts eller refererats till i tusentals artiklar under de decennier som gått sedan den först föreslogs”, säger Newman, ”men det visar sig att den kan ge felaktiga resultat, och felen är i vissa fall så stora att de kan förändra vetenskapliga slutsatser.”
Anta att forskare utvecklar algoritmer för att klassificera medicinska tillstånd baserat på patienters symtom. En modell kan korrekt identifiera diabetes men behandla alla fall på samma sätt, medan en annan är bättre på att skilja mellan typ 1 och typ 2, men missar diabetesdiagnosen helt i 10 % av fallen och har därför en större felmarginal.
I situationer som denna behöver forskarna ett sätt att avgöra vilken modellens förutsägelser som ger mer information om det verkliga tillståndet. Ömsesidig information hjälper till med detta genom att mäta hur mycket en modells resultat minskar osäkerheten om de korrekta klassificeringarna.
Forskare normaliserar ofta det måttet så att det hamnar mellan 0 och 1, vilket gör det lättare att jämföra olika problem. Jerdee och hans kollegor fann dock att denna normalisering medför två stora snedvridningar.
För det första kan den belöna algoritmer som överdelar data, uppfinner extra kategorier och verkar mer exakta än de är. För det andra kan vanligt förekommande normaliseringsmetoder medföra en ytterligare snedvridning mot artificiellt enkla algoritmer. Båda effekterna kan snedvrida jämförelser, särskilt i komplexa problem där den ”riktiga” grupperingen inte är enkel.
För att åtgärda dessa problem utvecklade teamet en asymmetrisk, reducerad version av det ömsesidiga informationsmåttet som eliminerar båda källorna till snedvridning. När de tillämpade sitt mått på populära algoritmer för community-detektering fann de att medan standard-NMI kan peka forskare mot olika ”bästa” algoritmer beroende på hur det beräknas, erbjuder deras reviderade mått en mer konsekvent och tillförlitlig jämförelse.
Genom att korrigera denna mätmetod hoppas författarna kunna förbättra tillförlitligheten i jämförelser inom alla områden där klustring eller klassificering spelar en central roll.
”Forskare använder NMI som ett slags måttstock för att jämföra algoritmer”, säger Jerdee. ”Men om måttstocken i sig är skev kan man dra fel slutsats om vilken metod som fungerar bäst.”
Mer information: Maximilian Jerdee et al, Normalized mutual information is a biased measure for classification and community detection, Nature Communications (2025). DOI: 10.1038/s41467-025-66150-8