Under de senaste åren har modeller som kan förutsäga proteiner struktur eller funktion använts i stor utsträckning för olika biologiska tillämpningar, såsom identifiering av läkemedelmål och utformning av nya terapeutiska antikroppar.
Dessa modeller, som baseras på stora språkmodeller (LLM), kan göra mycket noggranna förutsägelser om ett proteins lämplighet för en given tillämpning. Det finns dock inget sätt att avgöra hur dessa modeller gör sina förutsägelser eller vilka proteinfunktioner som spelar den viktigaste rollen i dessa beslut.
I en ny studie har forskare vid MIT använt en ny teknik för att öppna denna ”svarta låda” och fastställa vilka egenskaper en proteinspråksmodell tar hänsyn till när den gör förutsägelser. Att förstå vad som händer inuti den svarta lådan kan hjälpa forskare att välja bättre modeller för en viss uppgift, vilket bidrar till att effektivisera processen för att identifiera nya läkemedel eller vacciner.
”Vårt arbete har stora konsekvenser för förbättrad förklarbarhet i efterföljande uppgifter som är beroende av dessa representationer”, säger Bonnie Berger, Simons-professor i matematik, chef för gruppen för beräkning och biologi vid MIT:s laboratorium för datavetenskap och artificiell intelligens och seniorförfattare till studien. ”Dessutom kan identifiering av egenskaper som proteinspråkmodeller spårar potentiellt avslöja nya biologiska insikter från dessa representationer.”
Onkar Gujral, doktorand vid MIT, är huvudförfattare till studien, som publiceras denna vecka i Proceedings of the National Academy of Sciences. Mihir Bafna, doktorand vid MIT, och Eric Alm, professor i biologisk teknik vid MIT, är också författare till artikeln.
Öppna den svarta lådan
2018 introducerade Berger och den tidigare MIT-doktoranden Tristan Bepler, Ph.D., den första proteinspråkmodellen. Deras modell, liksom efterföljande proteinmodeller som påskyndade utvecklingen av AlphaFold, såsom ESM2 och OmegaFold, baserades på LLM. Dessa modeller, som inkluderar ChatGPT, kan analysera enorma mängder text och ta reda på vilka ord som är mest sannolika att förekomma tillsammans.
Proteinspråkmodeller använder en liknande metod, men istället för att analysera ord analyserar de aminosyrasekvenser. Forskare har använt dessa modeller för att förutsäga proteiner struktur och funktion, och för tillämpningar som att identifiera proteiner som kan binda till vissa läkemedel.
I en studie från 2021 använde Berger och hans kollegor en proteinspråkmodell för att förutsäga vilka delar av virala ytproteiner som är mindre benägna att mutera på ett sätt som gör att viruset kan undkomma. Detta gjorde det möjligt för dem att identifiera möjliga mål för vacciner mot influensa, HIV och SARS-CoV-2.
I alla dessa studier har det dock varit omöjligt att veta hur modellerna gjorde sina förutsägelser.
”Vi fick fram en förutsägelse i slutändan, men vi hade absolut ingen aning om vad som hände i de enskilda komponenterna i denna svarta låda”, säger Berger.
I den nya studien ville forskarna undersöka hur protein språkmodeller gör sina förutsägelser. Precis som LLM kodar proteinspråkmodeller information som representationer som består av ett mönster av aktivering av olika ”noder” inom ett neuralt nätverk. Dessa noder är analoga med de nätverk av neuroner som lagrar minnen och annan information i hjärnan.
Det inre arbetet i LLM är inte lätt att tolka, men under de senaste åren har forskare börjat använda en typ av algoritm som kallas spars autoencoder för att hjälpa till att belysa hur dessa modeller gör sina förutsägelser. Den nya studien från Bergers laboratorium är den första som använder denna algoritm på proteinspråkmodeller.
Sparse autoencoders fungerar genom att justera hur ett protein representeras i ett neuralt nätverk. Vanligtvis representeras ett givet protein av ett mönster av aktivering av ett begränsat antal neuroner, till exempel 480. En sparse autoencoder expanderar den representationen till ett mycket större antal noder, till exempel 20 000.
När information om ett protein kodas av endast 480 neuroner lyser varje nod upp för flera egenskaper, vilket gör det mycket svårt att veta vilka egenskaper varje nod kodar. Men när det neurala nätverket utvidgas till 20 000 noder ger detta extra utrymme tillsammans med en sparsamhetsbegränsning informationen utrymme att ”sprida sig”. Nu kan en egenskap hos proteinet som tidigare kodades av flera noder uppta en enda nod.
”I en gles representation lyser neuronerna upp på ett mer meningsfullt sätt”, säger Gujral. ”Innan de glesa representationerna skapas packar nätverken informationen så tätt att det är svårt att tolka neuronerna.”
Tolkningsbara modeller
När forskarna hade fått fram glesa representationer av många proteiner använde de en AI-assistent vid namn Claude (relaterad till den populära chatboten Anthropic med samma namn) för att analysera representationerna. I det här fallet bad de Claude att jämföra de glesa representationerna med kända egenskaper hos varje protein, såsom molekylär funktion, proteinfamilj eller placering i en cell.
Genom att analysera tusentals representationer kan Claude avgöra vilka noder som motsvarar specifika proteineigenskaper och sedan beskriva dem på vanlig engelska. Algoritmen kan till exempel säga: ”Denna neuron verkar detektera proteiner som är involverade i transmembrantransport av joner eller aminosyror, särskilt de som finns i plasmamembranet.”
Denna process gör noderna mycket mer ”tolkningsbara”, vilket innebär att forskarna kan avgöra vad varje nod kodar för. De fann att de egenskaper som mest sannolikt kodas av dessa noder var proteinfamilj och vissa funktioner, inklusive flera olika metaboliska och biosyntetiska processer.
”När man tränar en gles autoencoder tränar man den inte för att vara tolkningsbar, men det visar sig att genom att uppmuntra representationen att vara riktigt gles blir resultatet tolkningsbarhet”, säger Gujral.
Att förstå vilka egenskaper en viss proteinmodell kodar för kan hjälpa forskare att välja rätt modell för en viss uppgift eller justera den typ av indata de ger modellen för att få bästa resultat. Dessutom kan analys av de egenskaper som en modell kodar en dag hjälpa biologer att lära sig mer om de proteiner de studerar.
”När modellerna blir mycket kraftfullare kan man lära sig mer biologi än man redan kan genom att öppna modellerna”, säger Gujral.
Mer information: Berger, Bonnie, Sparse autoencoders uncover biologically interpretable features in protein language model representations, Proceedings of the National Academy of Sciences (2025). DOI: 10.1073/pnas.2506316122. doi.org/10.1073/pnas.2506316122
Denna artikel publiceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som rapporterar om forskning, innovation och undervisning vid MIT.