Entropins roll i säkra språkmodeller

by Albert
En illustration av hotmodellen och de kryptografiska protokoll som används för LLM:s privata inferens. Kredit: arXiv (2025). DOI: 10.48550/arxiv.2501.03489

Stora språkmodeller (LLM) har snabbt blivit en integrerad del av vårt digitala landskap och driver allt från chatbottar till kodgeneratorer. Men i takt med att dessa AI-system i allt högre grad förlitar sig på egenutvecklade modeller i molnet har oron för användarnas integritet och datasäkerhet eskalerat. Hur kan vi utnyttja kraften i AI utan att exponera känsliga uppgifter?

En ny studie, ”Entropy-Guided Attention for Private LLMs”, av Nandan Kumar Jha, doktorand vid NYU Center for Cybersecurity (CCS), och Brandon Reagen, biträdande professor vid institutionen för elektro- och datateknik och medlem av CCS, introducerar ett nytt tillvägagångssätt för att göra AI säkrare.

Artikeln presenterades vid AAAI Workshop on Privacy-Preserving Artificial Intelligence (PPAI 25) i början av mars och finns tillgängligarXiv preprint server.

Forskarna fördjupar sig i en grundläggande, men ofta förbisedd, egenskap hos neurala nätverk: entropi – måttet på informationsosäkerhet inom ett system. Deras arbete föreslår att vi genom att förstå entropins roll i AI-arkitekturer kan förbättra integriteten, effektiviteten och tillförlitligheten hos LLM.

Sekretessparadoxen inom AI

När vi interagerar med AI-modeller – oavsett om vi ber en virtuell assistent om medicinsk rådgivning eller använder AI-drivna verktyg för juridisk forskning – behandlas våra indata vanligtvis i molnet. Det innebär att användarfrågor, även om de krypteras under överföringen, i slutändan dekrypteras för att bearbetas av modellen. Detta utgör en grundläggande integritetsrisk: känsliga uppgifter kan exponeras, antingen oavsiktligt genom läckor eller skadligt via cyberattacker.

För att utforma effektiva privata LLM-modeller måste forskarna ompröva den arkitektur som dessa modeller bygger på. Att helt enkelt ta bort olinjäriteter destabiliserar dock träningen och stör kärnfunktionaliteten hos komponenter som uppmärksamhetsmekanismen.

”Olinjäriteter är livsnerven i neurala nätverk”, säger Jha. ”De gör det möjligt för modeller att lära sig rika representationer och fånga komplexa mönster.”

Private Inference (PI) syftar till att lösa detta problem genom att låta AI-modeller arbeta direkt på krypterad data, vilket säkerställer att varken användaren eller modellleverantören någonsin ser den råa inmatningen. PI medför dock betydande beräkningskostnader. Krypteringsmetoder som skyddar integriteten gör också beräkningen mer komplex, vilket leder till högre latens och energiförbrukning – två stora hinder för praktisk användning.

För att ta itu med dessa utmaningar fokuserar Jha och Reagens forskning på de olinjära transformationerna inom AI-modeller. I djupinlärning spelar olinjära funktioner som aktiveringsfunktioner en avgörande roll för att forma hur modeller bearbetar information. Forskarna undersöker hur dessa olinjära funktioner påverkar entropin – närmare bestämt mångfalden av information som passerar genom olika lager i en transformatormodell.

”Vårt arbete tar direkt itu med denna utmaning och tar en fundamentalt annorlunda inställning till integritet”, säger Jha. ”Det tar bort olinjära operationer samtidigt som det bevarar så mycket som möjligt av modellens funktionalitet.”

Genom att använda Shannons entropi som ett kvantitativt mått avslöjar de två viktiga misslyckanden som uppstår när olinjäritet tas bort:

  1. Entropikollaps (djupa lager): I avsaknad av olinjäritet lyckas inte de senare lagren i nätverket behålla användbar information, vilket leder till instabil träning.
  2. Entropisk överbelastning (tidiga lager): Utan korrekt entropikontroll misslyckas tidigare lager med att effektivt utnyttja MHA-mekanismen (Multi-Head Attention), vilket minskar modellens förmåga att fånga olika representationer.

Denna insikt är ny – den tyder på att entropi inte bara är en matematisk abstraktion utan en viktig designprincip som avgör om en modell kan fungera korrekt.

En ny AI-plan

Med hjälp av dessa resultat föreslår forskarna en entropistyrd uppmärksamhetsmekanism som dynamiskt reglerar informationsflödet i transformatormodeller. Deras tillvägagångssätt består av Entropy Regularization – en ny teknik som förhindrar att tidiga lager överväldigas av överdriven information – och PI-Friendly Normalization – alternativa metoder till standardlagernormalisering som hjälper till att stabilisera träningen samtidigt som integriteten bevaras.

Genom att strategiskt reglera entropin i uppmärksamhetsfördelningar kunde de upprätthålla ett sammanhängande, träningsbart beteende även i drastiskt förenklade modeller, vilket säkerställer att uppmärksamhetsvikter förblir meningsfulla och undviker degenererade mönster som vanligtvis uppstår när olinjäritet tas bort, där ett oproportionerligt antal huvuden uppvisar extremt beteende – kollapsar till nästan en-hot uppmärksamhet (låg entropi) eller sprider uppmärksamhet enhetligt (hög entropi) – båda försämrar modellens förmåga att fokusera och generalisera.

Detta arbete överbryggar klyftan mellan informationsteori och arkitektonisk design och etablerar entropidynamik som en principiell guide för att utveckla effektiva integritetsskyddande LLM: er. Det utgör ett avgörande steg mot att göra integritetsskyddande AI mer praktiskt och effektivt i verkliga tillämpningar. Genom att överbrygga klyftan mellan informationsteori och design av neurala arkitekturer erbjuder deras arbete en färdplan för att utveckla AI-modeller som inte bara är mer privata utan också beräkningseffektiva.

Teamet har också öppnat upp sin implementering och bjudit in forskare och utvecklare att experimentera med deras entropistyrda strategi.

För mer information: Nandan Kumar Jha et al, Entropy-Guided Attention for Private LLMs, arXiv (2025). DOI: 10.48550/arxiv.2501.03489

Related Articles

Leave a Comment