Gener är livets byggstenar, och den genetiska koden ger instruktioner för de komplexa processer som får organismer att fungera. Men hur och varför blev den som den är?
En ny studie från University of Illinois Urbana-Champaign kastar nytt ljus över den genetiska kodens ursprung och utveckling, och ger värdefulla insikter för genteknik och bioinformatik. Studien är publicerad i Journal of Molecular Biology.
”Vi finner att den genetiska kodens ursprung på mystiskt sätt är kopplat till dipeptidsammansättningen i ett proteom, det vill säga den samlade mängden proteiner i en organism”, säger korresponderande författare Gustavo Caetano-Anollés, professor vid Institutionen för växtvetenskap, Carl R. Woese Institute for Genomic Biology och Biomedical and Translation Sciences vid Carle Illinois College of Medicine vid University of Illinois.
Caetano-Anollés arbete fokuserar på fylogenomik, som är studiet av evolutionära relationer mellan organismernas genom. Hans forskargrupp hade tidigare byggt fylogenetiska träd som kartlägger evolutionära tidslinjer för proteindomäner (strukturella enheter i proteiner) och transfer-RNA (tRNA), en RNA-molekyl som levererar aminosyror till ribosomen under proteinsyntesen.
I denna studie undersökte de evolutionen av dipeptidsekvenser (grundläggande moduler av två aminosyror som är bundna av en peptidbindning) och fann att domänernas, tRNA:s och dipeptidernas historia stämmer överens.
Livet på jorden började för 3,8 miljarder år sedan, men gener och den genetiska koden uppstod först 800 000 miljoner år senare, och det finns konkurrerande teorier om hur detta skedde.
Vissa forskare tror att RNA-baserad enzymatisk aktivitet kom först, medan andra föreslår att proteinerna började samverka först. Caetano-Anollés och hans kollegers forskning under de senaste decennierna stöder den senare uppfattningen och visar att ribosomala proteiner och tRNA-interaktioner uppstod senare i evolutionens tidslinje.
Livet fungerar med två koder som samverkar, förklarade Caetano-Anollés. Den genetiska koden lagrar instruktioner i nukleinsyror (DNA och RNA), medan proteinkoden talar om för enzymer och andra molekyler hur de ska hålla cellerna vid liv och fungerande. Brobyggaren mellan de två är ribosomen, cellens proteinfabrik, som sätter ihop aminosyror som bärs av tRNA-molekyler till proteiner. Enzymerna som laddar aminosyrorna på tRNA kallas aminoacyl-tRNA-syntetaser. Dessa syntetasenzymer fungerar som väktare av den genetiska koden och övervakar att allt fungerar som det ska.
”Varför är livet beroende av två språk – ett för gener och ett för proteiner?” frågade Caetano-Anollés. ”Vi vet fortfarande inte varför detta dubbla system finns eller vad som driver kopplingen mellan de två. Drivkrafterna kan inte finnas i RNA, som är funktionellt klumpigt. Proteiner, å andra sidan, är experter på att driva cellens sofistikerade molekylära maskineri.”
Proteomet verkade passa bättre för att rymma den genetiska kodens tidiga historia, där dipeptider spelade en särskilt viktig roll som tidiga strukturella moduler för proteiner. Det finns 400 möjliga dipeptidkombinationer vars förekomst varierar mellan olika organismer.
Forskargruppen analyserade en dataset med 4,3 miljarder dipeptidsekvenser från 1 561 proteomer som representerar organismer från de tre superrikena: Archaea, Bacteria och Eukarya. De använde informationen för att konstruera ett fylogenetiskt träd och en kronologi över dipeptidernas evolution. De kartlade också dipeptiderna till ett träd av proteinstrukturella domäner för att se om liknande mönster uppstod.
I tidigare arbete hade forskarna byggt en fylogeni av tRNA som hjälpte till att skapa en tidslinje för när aminosyrorna kom in i den genetiska koden, och kategoriserade aminosyrorna i tre grupper baserat på när de uppträdde.
De äldsta var grupp 1, som inkluderade tyrosin, serin och leucin, och grupp 2, med ytterligare 8 aminosyror. Dessa två grupper var associerade med ursprunget till redigering i syntetasenzymer, som korrigerade felaktig laddning av aminosyror, och en tidig operativ kod, som fastställde de första reglerna för specificitet, vilket säkerställde att varje kodon motsvarar en enda aminosyra. Grupp 3 inkluderade aminosyror som kom senare och var kopplade till härledda funktioner relaterade till den standardiserade genetiska koden.
Teamet hade redan visat på samevolutionen av syntetaser och tRNA i relation till aminosyrornas uppkomst. Nu kunde de lägga till dipeptider till analysen.
”Vi fann att resultaten var kongruenta”, förklarade Caetano-Anollés. ”Kongruens är ett nyckelbegrepp i fylogenetisk analys. Det betyder att ett påstående om evolution som erhållits med en typ av data bekräftas av en annan. I detta fall undersökte vi tre informationskällor: proteindomäner, tRNA och dipeptidsekvenser. Alla tre visar samma progression av aminosyror som läggs till den genetiska koden i en specifik ordning.”
En annan ny upptäckt var dualiteten i uppkomsten av dipeptidpar. Varje dipeptid kombinerar två aminosyror, till exempel alanin-leucin (AL), medan en symmetrisk dipeptid – en anti-dipeptid – har den motsatta kombinationen leucin-alanin (LA). De två dipeptiderna i ett par är komplementära; de kan betraktas som spegelbilder av varandra.
”Vi fann något anmärkningsvärt i det fylogenetiska trädet”, sade Caetano-Anollés. ”De flesta dipeptid- och anti-dipeptidpar uppträdde mycket nära varandra på den evolutionära tidslinjen. Denna synkronicitet var oväntad. Dualiteten avslöjar något grundläggande om den genetiska koden med potentiellt transformativa implikationer för biologin. Det tyder på att dipeptider uppstod kodade i komplementära strängar av nukleinsyragenom, sannolikt minimalistiska tRNA som interagerade med primordiala syntetasenzymer.”
Dipeptider uppstod inte som godtyckliga kombinationer utan som kritiska strukturella element som formade proteinveckning och funktion. Studien tyder på att dipeptider representerar en primordial proteinkod som uppstod som svar på de strukturella kraven hos tidiga proteiner, tillsammans med en tidig RNA-baserad operativ kod. Denna process formades av samevolution, molekylär redigering, katalys och specificitet, vilket slutligen gav upphov till syntetasenzymerna, de moderna väktarna av den genetiska koden.
Att avslöja den genetiska kodens evolutionära rötter fördjupar vår förståelse av livets ursprung och ger information till moderna områden som genteknik, syntetisk biologi och biomedicinsk forskning.
”Syntetisk biologi erkänner värdet av ett evolutionärt perspektiv. Det stärker gentekniken genom att låta naturen styra designen. Det är viktigt att förstå biologiska komponenters och processers ålder, eftersom det belyser deras motståndskraft och resistens mot förändring. För att göra meningsfulla modifieringar är det viktigt att förstå begränsningarna och den underliggande logiken i den genetiska koden”, säger Caetano-Anollés.
Mer information: Minglei Wang et al, Tracing the Origin of the Genetic Code and Thermostability to Dipeptide Sequences in Proteomes, Journal of Molecular Biology (2025). DOI: 10.1016/j.jmb.2025.169396