Skip to main content

AI gætter. Det er et problem.

Submitted by Lennart on
AI gætter. Det er et problem.
AI gætter. Det er et problem.

Der er noget der sjældent bliver sagt højt om de sprogmodeller vi bygger virksomheder på:

De gætter.

Ikke tilfældigt. Ikke dumt. Men de gætter. Hver eneste gang de producerer et svar, vælger de den næste sætning baseret på sandsynlighed — hvad der statistisk set plejer at komme efter det foregående. Det er imponerende ingeniørkunst. Og det er en fundamental svaghed du bør kende, inden du bygger kritiske processer på det.

Den probabilistiske fælde

En sprogmodel er trænet til at forudsige sandsynlige fortsættelser af tekst. Det gør den ekstremt god til at lyde rigtig. Det gør den ikke nødvendigvis god til at være rigtig.

Problemet opstår når du giver den ustrukturerede data og beder den finde sammenhænge.

Forestil dig at du hælder fem år med interne dokumenter, e-mails og mødereferater ind i et AI-system og spørger: "Hvad er vores politik for kundereklamationer?"

Systemet finder tekster der ligner hinanden semantisk. Det vægtede gennemsnit af disse tekster bliver svaret. Hvis din reklamationspolitik er beskrevet tre steder med tre lidt forskellige nuancer — og der er 47 e-mails der diskuterer undtagelser og særtilfælde — er sandsynlighederne skæve fra start. Svaret bliver en blanding af det faktiske og det diskuterede. Præsenteret som om det er éntydigt.

Det er ikke en fejl i systemet. Det er systemet der fungerer præcist som designet.

Ustrukturerede data forstærker problemet

Spromodeller er probabilistiske af natur. Ustrukturerede data er kaotiske af natur. Kombinationen er ikke neutral — den forstærker begge problemer.

Når du fodrer et AI-system med ustrukturerede data, giver du det ingen anker. Det kan ikke vide hvad der er kanonisk og hvad der er en diskussion. Det kan ikke vide hvad der er besluttet og hvad der er et forslag. Det kan ikke vide hvad der er gyldigt i dag og hvad der var sandt i 2019.

Det gætter. Baseret på hvad der fylder mest og ligner mest.

Det betyder at jo mere ustruktureret din data er, jo mere bygger du på statistisk støj. Og jo vigtigere beslutningerne er, jo dyrere er den støj.

Embeddings: induktive af natur

Den tekniske løsning der tilbydes er embeddings — en metode der omsætter tekst til matematiske koordinater, så "omkostningsreduktion" og "effektiviseringsgevinst" placeres tæt på hinanden i det matematiske rum.

Det er elegant. Og det er induktivt.

Induktiv tænkning bevæger sig fra det specifikke til det generelle: "Jeg har set mange eksempler — hvad er mønsteret?" Det er præcis hvad embeddings gør. De udleder relationer fra tekst. De forsøger at rekonstruere sammenhænge der ikke er eksplicitte.

Problemet er at induktion kan fejle på systematiske måder. Hvis din virksomhed altid har diskuteret reklamationer i sammenhæng med kundeservice, vil embeddings placere "reklamationspolitik" tæt på "kundeserviceafdelingen" — selv hvis juridisk afdeling i praksis ejer processen. Systemet udleder fra mønsteret, ikke fra virkeligheden.

Og du ved sjældent præcis hvornår det fejler. Outputtet ser altid overbevisende ud.

Det deduktive alternativ

Der er en anden tilgang: deduktiv struktur.

Deduktiv tænkning bevæger sig fra det generelle til det specifikke: "Jeg har besluttet et princip — hvad følger af det?" Det er hvad en velorganiseret vidensbase gør. Relationerne er ikke udledt af tekst. De er besluttet af mennesker der forstår forretningen.

Når en medarbejder skriver en procedure og eksplicit linker den til den afdeling der ejer den, den lovgivning der gælder og de systemer der er involveret — er sammenhængen ikke et gæt. Det er en beslutning.

Det er mere arbejde at bygge. Det kræver at nogen tager stilling. Men til gengæld ved du hvad du har. Du kan stole på det. Og et AI-system der opererer på deduktiv struktur har et fundament at arbejde fra — ikke statistisk støj at navigere igennem.

Det rigtige sted at bruge sandsynlighed

Alt dette betyder ikke at sprogmodeller er ubrugelige. Det betyder at de har et naturligt hjemsted.

De er gode til at formulere. De er gode til at opsummere. De er gode til at generere første udkast. De er gode til at oversætte kompleks information til et letforståeligt sprog.

Det de er dårlige til er at afgøre hvad der er sandt, hvad der er gældende, og hvad der skal veje tungest — med mindre nogen har sagt det eksplicit til dem.

Sandsynlighed er et godt redskab til at håndtere usikkerhed. Det er et dårligt redskab til at erstatte vished.

Og den vigtigste opgave inden du implementerer AI i kritiske processer er ikke at vælge den rigtige model. Det er at beslutte hvad du ved — og skrive det ned på en måde der ikke kan misfortolkes.

Det er et ledelsesansvar. Ikke et teknisk problem.