Her er en oversigt over forskellene mellem LLM'er (Large Language Models) og LRM'er (Large Reasoning Models):
Vigtigste forskelle mellem LLM'er og LRM'er:
| Funktion | Store sprogmodeller (LLM'er) | Store ræsonneringsmodeller (LRM'er) |
|---|---|---|
| Kernefunktionalitet | Forudser det næste token i en sekvens ved hjælp af statistisk mønstergenkendelse. | Går et skridt videre ved at "tænke før de taler". |
| Responsgenerering | Projektilforudsiger statistisk passende ord og udsender token for token. | Planlægger, afvejer muligheder, dobbelttjekker beregninger i en sandkasse før udsendelse af tokens. |
| Proces | Direkte output baseret på statistisk sandsynlighed. | Intern tankegang: planlæg -> evaluer -> svar. |
| Styrker | God til opgaver, hvor et hurtigt, statistisk sandsynligt svar er tilstrækkeligt (f.eks. sjove opslag på sociale medier). | Udviser fremragende evner inden for komplekse opgaver, der kræver logik i flere trin, planlægning og abstrakt ræsonnement (f.eks. fejlfinding af stack traces, sporing af pengestrømme). |
| Håndtering af kompleksitet | Refleks er normalt fint til simple opgaver. | Refleks er utilstrækkelig til komplekse opgaver; intern planlægning og evaluering er afgørende. |
| Intern mekanisme | Ren statistisk mønstergenkendelse. | Anvender intern "tankegang" til at teste hypoteser og kassere blindgyder. |
| Omkostninger | Lavere inferenstid og GPU-omkostninger. | Højere inferenstid og GPU-omkostninger på grund af ekstra trin (selvtjek, søgegrene). |
| Træning | Massiv prætræning på en bred vifte af data (websider, bøger, kode). | Bygger videre på prætrænede LLM'er og gennemgår derefter specialiseret ræsonnementsfokuseret finjustering med kuraterede datasæt af logiske gåder, matematikopgaver, kodningsopgaver og svarnøgler med tankegang. |
| Læringsmekanisme (efter prætræning) | Primært baseret på prætræning. | Yderligere trænet via forstærkningslæring (RLHF eller procesbelønningsmodeller) for at maksimere "thumbs up"-belønninger for hvert trin i deres ræsonnement. Kan også bruge destillation fra større lærermodeller. |
| Kørselsadfærd | Direkte token-generering. | Kan køre flere tankegange, stemme om den bedste, gå tilbage og kalde eksterne værktøjer (lommeregnere, databaser, sandkasser) til stikprøvekontrol under udvidet inferens. |
| Prompt Engineering | Kan kræve mere "prompt hackery" (f.eks. "lad os tænke trin for trin"). | Kræver generelt mindre prompt engineering, da de i sagens natur tænker trin for trin. |
| Outputegenskaber | Kan være mindre nuanceret eller nøjagtig til komplekse problemer. | Svarene har tendens til at være mere nuancerede og nøjagtige på grund af intern verifikation og overvejelse. |
| Nuværende tilstand af AI | En grundlæggende teknologi. | De mest intelligente modeller, der scorer højest på AI-benchmarks, har tendens til at være LRM'er. |
| Analogi | En hurtigtalende ekspert, der er afhængig af intuition. | En metodisk problemløser, der planlægger, tester og verificerer. |
Sammenfattende:
- LLM'er er fremragende til at generere flydende, menneskelignende tekst baseret på mønstre, der er lært fra store mængder data. De er som en dygtig efterligner, der hurtigt kan producere imponerende output.
- LRM'er er en videreudvikling af LLM'er. De bevarer sproggenereringsfunktionerne, men tilføjer et afgørende lag af bevidst tanke og planlægning, før de producerer et svar. De er designet til mere kompleks problemløsning, hvor nøjagtighed og ræsonnement er altafgørende.
Den afvejning, der er forbundet med LRM'ernes forbedrede ræsonnementsegenskaber, er øgede beregningsomkostninger og latenstid, hvilket gør dem dyrere og langsommere at køre. Men for opgaver, der kræver dybdegående analyse og pålidelig beslutningstagning, giver LRM'er betydelige fordele.