En grupp datavetare vid Microsoft Research har tillsammans med en kollega från University of Chinese Academy of Sciences introducerat Microsofts nya AI-modell som körs på en vanlig CPU istället för en GPU. Forskarna har publicerat ett dokument på preprint-servern arXiv som beskriver hur den nya modellen byggdes upp, dess egenskaper och hur väl den har klarat sig hittills under testerna.
Under de senaste åren har LLM:er blivit en stor trend. Modeller som ChatGPT har gjorts tillgängliga för användare över hela världen och introducerat idén om intelligenta chatbots. En sak som de flesta av dem har gemensamt är att de är utbildade och körs på GPU-chip. Detta på grund av den enorma mängd datorkraft som krävs när de tränas på stora mängder data.
På senare tid har det uppstått oro över de enorma mängder energi som används av datacenter för att stödja alla chatbots som används för olika ändamål. I detta nya försök har teamet hittat vad de beskriver som ett smartare sätt att bearbeta dessa data, och de har byggt en modell för att bevisa det.
En av de mest energikrävande delarna av att köra AI-modeller handlar om hur vikter används och lagras – vanligtvis som 8- eller 16-bitars flytande tal. Ett sådant tillvägagångssätt innebär mycket minne och CPU-bearbetning, vilket i sin tur kräver mycket energi. I sin nya metod har forskarna helt slopat användningen av flyttal och föreslår istället vad de beskriver som en 1-bitars arkitektur.
I deras innovation lagras och bearbetas vikter med hjälp av endast tre värden: -1, 0 och 1. Detta gör att man inte behöver använda mer än enkel addition och subtraktion under bearbetningen – operationer som enkelt kan utföras med en CPU-baserad dator.
Tester av den nya modelltypen visade att den kunde mäta sig med GPU-baserade modeller i samma storleksklass och till och med överträffa vissa av dem – allt medan den använde mycket mindre minne och i slutändan mycket mindre energi.
För att köra en sådan modell skapade teamet en runtime-miljö för den. Den nya miljön heter bitnet.cpp och är utformad för att utnyttja 1-bitarsarkitekturen på bästa sätt.
Om teamets påståenden stämmer kan utvecklingen av BitNet b1.58 2B4T komma att förändra spelplanen. Istället för att förlita sig på massiva datafarmar kan användare snart köra en chatbot på sin dator eller kanske på sin telefon. Förutom att minska energibehovet skulle en lokalisering av LLM-bearbetningen avsevärt förbättra integriteten och göra det möjligt att arbeta utan att ens vara ansluten till Internet.
För mer information: Shuming Ma et al, BitNet b1.58 2B4T Technical Report, arXiv (2025). DOI: 10.48550/arxiv.2504.12285