Gå til hovedindhold

Samsungs nye mini-AI smadrer konkurrenternes giganter

Indsendt af Lennart den

I kapløbet om AI-overlegenhed har industriens mantra ofte været "større er bedre".

Teknologigiganter har brugt milliarder på at skabe stadig større modeller, men ifølge Alexia Jolicoeur-Martineau fra Samsung SAIL Montréal er der mulighed for en radikalt anden og mere effektiv vej frem med den nye lille rekursive model (TRM, Tiny Recursive Model).

Ved hjælp af en model med kun 7 millioner parametre, mindre end 0,01 % af størrelsen på førende LLM'er, opnår TRM nye state-of-the-art-resultater på notorisk vanskelige benchmarks som ARC-AGI-intelligenstesten.

Mens LLM'er har vist utrolig dygtighed til at generere menneskelignende tekst, kan deres evne til at udføre komplekse ræsonnementer i flere trin være skrøbelig.

Skrøbeligheden opstår fordi de store LLM'er genererer svar token for token. På den måde kan en enkelt fejl tidligt i processen afspore hele løsningen og føre til et ugyldigt endeligt svar.

Teknikker som Chain-of-Thought, hvor en model "tænker højt" for at nedbryde et problem, er blevet udviklet for at afbøde dette. Men disse metoder er beregningsmæssigt dyre, kræver ofte store mængder ræsonnementer af høj kvalitet og data, som måske ikke er tilgængelige — og kan stadig producere fejlbehæftet logik!

En viderudvikling af HRM

Samsungs arbejde bygger på en nyere AI-model kendt som Hierarchical Reasoning Model (HRM). HRM introducerede en ny metode, der bruger to små neurale netværk, som rekursivt arbejder på et problem med forskellige frekvenser for at forfine et svar. Den var meget lovende, men den var kompliceret og byggede på usikre biologiske argumenter.

I stedet for HRM's to netværk bruger TRM et enkelt, lillebitte netværk, der rekursivt forbedrer både sit interne "ræsonnement" og sit foreslåede "svar".

Modellen får spørgsmålet, et indledende gæt på svaret og en latent ræsonneringsfunktion.

Den gennemgår først flere trin for at forfine sin latente ræsonnement baseret på alle tre input. Derefter bruger den dette forbedrede ræsonnement til at opdaterer den sin forudsigelse af det endelige svar. Hele denne proces kan gentages op til 16 gange, hvilket gør det muligt for modellen gradvist at korrigere sine egne fejl på en på en meget parameter-effektiv måde.

Kontraintuitivt opdagede forskerne, at et lille netværk med kun to lag lag opnåede en langt bedre generalisering end en version med fire lag. Denne reduktion i størrelse ser ud til at forhindre modellen i at overtilpasse sig; et almindeligt problem, når man træner på mindre, specialiserede datasæt.

Resultaterne for TRM imponerer

Mest bemærkelsesværdigt er det, at TRM gør store fremskridt i Abstraction and Reasoning Corpus (ARC-AGI), et benchmark designet til at måle ægte flydende intelligens i AI. Med kun 7 mio. parametre og et resultat på 7,8 procent overgår den lille model alligevel mange af verdens største LLM'er.

Til sammenligning scorer Gemini 2.5 Pro kun 4,9 % på ARC-AGI-2.