Hvordan vi tester
hvilkenAI.no tester AI-modeller på praktiske, hverdagslige opgaver — ikke akademiske benchmarks.
Uafhængig og uden kommersielle bindinger
hvilkenAI har ingen affiliate-avtaler, sponsorer eller kommersielle partnerskaber med AI-leverandørerne vi tester. Vi modtager ingen provision, rabatter eller fordele fra nogen modell-leverandør. Alle anbefalinger er baseret udelukkende på testresultaterne. Vi finansieres af abonnementsindtægter fra Pro-brugere og annoncering — aldrig af leverandørerne vi evaluerer.
Vores filosofi
Hvad vi måler
Dansk sprogkvalitet (0–5)
Hvor godt forstår og skriver modellen dansk? Svarede den på dansk, eller faldt den tilbage til engelsk?
Instruksjonsfølgelighed (0–5)
Gør modellen det du faktisk beder om? Rigtig længde, format og indhold tæller.
Hastighed (tokens/sekund)
Hvor hurtigt får du svar? Vi måler tokens per sekund og tid til første token (TTFT).
Pris (kr per million tokens)
Hvad koster det i danske kroner? Opdateres dagligt baseret på valutakurs.
Samlet score (0–10)
Vægtet totalvurdering som kombinerer dansk, instruktion, hastighed og værdi per krone.
Orkestrator-score (0–10) — unik for hvilkenAI.no
Hvor godt egnet er modellen til at styre andre AI-modeller på dansk? Beregnes fra dansk × instruktion — multiplikation straffer svaghed i begge dimensioner. En model som ikke skriver dansk kan ikke orkestrere effektivt på dansk.
Se orkestrator-rangering →Modeludvalg og testfrekvens
Fokus
Ændringslog — hvad vi har opdaget
Reelle observationer fra daglig benchmark. Dette er det kvartalsrapporter ikke fanger.
Hvorfor daglig testing?
De fleste AI-benchmarks publiceres månedligt eller kvartalsvis. Men AI-modeller opdateres kontinuerligt — ofte uden at leverandøren annoncerer det. En model som var bedst i sidste uge kan have faldet til nummer 5 denne uge. Daglig testing fanger disse ændringer i sanntid.
AI-markedet ændrer sig fra dag til dag. Leverandører opdaterer modelerne uden forvarsel — vi har fanget flere sådanne «stille opdateringer» fordi scoren pludselig ændrede sig. En rapport i kvartalet fanger ikke dette. Daglig testing gør det.
For virksomheder som bruger AI i daglig drift betyder dette at beslutningsgrundlaget altid er opdateret. Du behøver ikke vente 3 måneder på næste rapport for at vide om du bruger den rigtige model.
Se også