Det er ikke selve AI-modellernes intelligens, der hindrer deres implementering i virksomhederne, men snarere manglen på evnen til at definere og måle kvalitet.
Her spiller "AI-dommere" en stigende rolle. En AI-dommer er et AI-system, der evaluerer output fra et andet AI-system.
Virksomheder opfordres til at:
- Fokusere på dommere med stor effekt ved at identificere kritiske lovkrav og observerede fejltilstande.
- Oprette lette arbejdsgange med fageksperter, der involverer kortvarig gennemgang af edge cases og brug af batched annotation.
- Planlægge regelmæssige dommergennemgange med produktionsdata for at tilpasse dommerporteføljen til systemets udvikling.
En dommer er ikke kun en evalueringsmekanisme, men også en beskyttelseslinje, en metrik for hurtig optimering og reinforcement learning, og en måling af menneskelig præference i empirisk form, der kan bruges på utallige måder til at måle og forbedre AI-agenter.