Neurovetenskapsforskare avslöjar insikter om hur hjärnan bildar vanor och varför de är så svåra att bryta

by Albert
Bilden visar de två regioner i hjärnan som var inaktiva under uppgiften – dorsomediala striatum (DMS) och striatumets svans (TS). Källa: Hernando Martinez Vergara.

Neuroforskare vid Sainsbury Wellcome Center (SWC) vid UCL har upptäckt att hjärnan använder ett dubbelt system för inlärning genom trial and error. Det är första gången ett andra inlärningssystem har identifierats, vilket kan bidra till att förklara hur vanor bildas och ge en vetenskaplig grund för nya strategier för att hantera tillstånd som är relaterade till vanebaserad inlärning, såsom missbruk och tvångshandlingar.

Studien, som publicerats i Nature, har gjorts på möss och kan även ha betydelse för utvecklingen av läkemedel mot Parkinsons sjukdom. Studien har titeln ”Dopaminergic action prediction errors serve as a value-free teaching signal” (Dopaminerga fel i åtgärdsförutsägelser fungerar som värderingsfria lärsignaler).

”I grund och botten har vi hittat en mekanism som vi tror är ansvarig för vanor. När du väl har utvecklat en preferens för en viss handling kan du kringgå ditt värderingsbaserade system och bara förlita dig på din standardpolicy för vad du har gjort tidigare. Detta kan sedan frigöra kognitiva resurser som kan användas för att fatta värdebaserade beslut om något annat”, förklarar Dr Marcus Stephenson-Jones, gruppledare vid SWC och huvudförfattare till studien.

Forskarna upptäckte en dopaminsignal i hjärnan som fungerar som en annan typ av lärandesignal än den som tidigare var känd.

Dopaminsignaler i hjärnan var redan kända för att bilda belöningsförväntningsfel (RPE), där de signalerar till djuret om ett faktiskt resultat är bättre eller sämre än förväntat. I den nya studien upptäckte forskarna att det parallellt med RPE finns en ytterligare dopaminsignal, kallad handlingsförväntningsfel (APE), som uppdaterar hur ofta en handling utförs.

Dessa två undervisningssignaler ger djuren två olika sätt att lära sig att göra ett val, att lära sig att välja antingen det mest värdefulla alternativet eller det vanligaste alternativet.

”Tänk dig att du går till din lokala smörgåsbutik. Första gången du går dit kanske du tar god tid på dig att välja en smörgås och beroende på vilken du väljer kanske du gillar den eller inte. Men om du går tillbaka till affären många gånger spenderar du inte längre tid på att fundera över vilken smörgås du ska välja utan börjar istället välja en som du gillar som standard. Vi tror att det är APE-dopaminsignalen i hjärnan som gör att du kan lagra denna standardpolicy”, förklarade Dr Stephenson-Jones.

Det nyupptäckta inlärningssystemet ger ett mycket enklare sätt att lagra information än att direkt jämföra värdet av olika alternativ.

Detta kan frigöra hjärnan för multitasking. När du till exempel har lärt dig att köra bil kan du också föra en konversation med någon under resan. Medan ditt standardsystem utför alla repetitiva uppgifter för att köra bilen kan ditt värdebaserade system bestämma vad ni ska prata om.

Tidigare forskning har visat att de dopaminneuroner som behövs för inlärning finns i tre områden i mellanhjärnan: ventral tegmental area, substantia nigra pars compacta och substantia nigra pars lateralis. Medan vissa studier har visat att dessa neuroner är involverade i kodning för belöning, har tidigare forskning visat att hälften av dessa neuroner kodar för rörelse, men orsaken har varit ett mysterium.

RPE-neuroner projiceras till alla områden i striatum utom ett, som kallas striatumets svans. De rörelsespecifika neuronerna projiceras däremot till alla områden utom nucleus accumbens. Detta innebär att nucleus accumbens uteslutande signalerar belöning, och striatumets svans uteslutande signalerar rörelse.

Genom att undersöka svansen av striatum kunde teamet isolera rörelse-neuronerna och upptäcka deras funktion. För att testa detta använde forskarna en auditiv diskrimineringsuppgift på möss, som ursprungligen utvecklats av forskare vid Cold Spring Harbor Laboratory.

Fluorescerande bilder som visar de platser i hjärnan som forskarna registrerade från – svansen av striatum (TS) och ventrala striatum (VS). Kredit: Francesca Greenstreet.

Fluorescerande bilder som visar de platser i hjärnan som forskarna registrerade från – svansen av striatum (TS) och ventrala striatum (VS). Kredit: Francesca Greenstreet.

Medförfattarna, dr Francesca Greenstreet, dr Hernando Martinez Vergara och dr Yvonne Johansson, använde en genetiskt kodad dopaminsensor som visade att dopaminfrisättningen i detta område inte var relaterad till belöning, utan till rörelse.

”När vi skadade svansen av striatum fann vi ett mycket karakteristiskt mönster”, förklarade dr Stephenson-Jones.

”Vi observerade att skadade möss och kontrollmöss inledningsvis lär sig på samma sätt, men när de når cirka 60–70 % prestanda, dvs. när de utvecklar en preferens (till exempel att gå åt vänster för en hög ton och åt höger för en låg ton), lär sig kontrollmössen snabbt och utvecklar expertprestanda, medan de skadade mössen bara fortsätter att lära sig på ett linjärt sätt.

”Det beror på att de skadade mössen endast kan använda RPE, medan kontrollmössen har två inlärningssystem, RPE och APE, som bidrar till valet.”

För att förstå detta bättre tystade teamet svansen på striatum hos expertmössen och fann att detta hade en katastrofal effekt på deras prestation i uppgiften. Detta visade att medan djur i ett tidigt inlärningsskede bildar en preferens med hjälp av det värdebaserade systemet baserat på RPE, övergår de i ett senare inlärningsskede till att uteslutande använda APE i svansen av striatum för att lagra dessa stabila associationer och styra sitt val.

Teamet använde också omfattande datormodellering, ledd av Dr Claudia Clopath, för att förstå hur de två systemen, RPE och APE, lär sig tillsammans.

Dessa fynd antyder varför det är så svårt att bryta dåliga vanor och varför det kan vara den bästa strategin att ersätta en handling med något annat. Om man ersätter en handling tillräckligt konsekvent, till exempel genom att tugga nikotintuggummi istället för att röka, kan APE-systemet ta över och bilda en ny vana ovanpå den gamla.

”Nu när vi vet att detta andra inlärningssystem finns i hjärnan har vi en vetenskaplig grund för att utveckla nya strategier för att bryta dåliga vanor. Hittills har de flesta undersökningar om beroenden och tvångshandlingar fokuserat på nucleus accumbens. Vår forskning har öppnat upp ett nytt område i hjärnan där man kan leta efter potentiella terapeutiska mål”, kommenterade Dr Stephenson-Jones.

Denna forskning har också potentiella implikationer för Parkinsons sjukdom, som är känd för att orsakas av döden av dopaminneuroner i mellanhjärnan, särskilt i substantia nigra pars compacta. Den typ av celler som har visat sig dö är rörelserelaterade dopaminneuroner, som kan vara ansvariga för kodningen av APE.

Detta kan förklara varför personer med Parkinsons sjukdom upplever brister i vanliga beteenden som att gå, men inte i mer flexibla beteenden som att åka skridskor.

”Plötsligt har vi nu en teori om paradoxala rörelser vid Parkinsons sjukdom. De rörelserelaterade nervcellerna som dör är de som styr vanliga beteenden. Därför påverkas rörelser som använder det vanliga systemet, men rörelser som använder det värdebaserade flexibla systemet fungerar bra. Detta ger oss en ny plats att titta på i hjärnan och ett nytt sätt att tänka på Parkinsons sjukdom”, avslutar Dr Stephenson-Jones.

Forskargruppen testar nu om APE verkligen behövs för vanor. De undersöker också vad som exakt lärs in i varje system och hur de två samverkar.

Mer information: Dopaminergiska åtgärdsförutsägelsesfel fungerar som en värderingsfri undervisningssignal, Nature (2025). DOI: 10.1038/s41586-025-09008-9. www.nature.com/articles/s41586-025-09008-9

Related Articles

Leave a Comment