Hvordan vi tester

hvilkenAI.no tester AI-modeller på praktiske, hverdagslige opgaver — ikke akademiske benchmarks.

🛡️

Uafhængig og uden kommersielle bindinger

hvilkenAI har ingen affiliate-avtaler, sponsorer eller kommersielle partnerskaber med AI-leverandørerne vi tester. Vi modtager ingen provision, rabatter eller fordele fra nogen modell-leverandør. Alle anbefalinger er baseret udelukkende på testresultaterne. Vi finansieres af abonnementsindtægter fra Pro-brugere og annoncering — aldrig af leverandørerne vi evaluerer.

Vores filosofi

Vi tester det folk faktisk bruger AI til: skrive e-mails, opsummere tekst, svare på spørgsmål, følge instruktioner på dansk, svensk og norsk. Hvis en model scorer godt hos os, fungerer den godt for dig.

Hvad vi måler

Dansk sprogkvalitet (0–5)

Hvor godt forstår og skriver modellen dansk? Svarede den på dansk, eller faldt den tilbage til engelsk?

Instruksjonsfølgelighed (0–5)

Gør modellen det du faktisk beder om? Rigtig længde, format og indhold tæller.

Hastighed (tokens/sekund)

Hvor hurtigt får du svar? Vi måler tokens per sekund og tid til første token (TTFT).

Pris (kr per million tokens)

Hvad koster det i danske kroner? Opdateres dagligt baseret på valutakurs.

Samlet score (0–10)

Vægtet totalvurdering som kombinerer dansk, instruktion, hastighed og værdi per krone.

Orkestrator-score (0–10) — unik for hvilkenAI.no

Hvor godt egnet er modellen til at styre andre AI-modeller på dansk? Beregnes fra dansk × instruktion — multiplikation straffer svaghed i begge dimensioner. En model som ikke skriver dansk kan ikke orkestrere effektivt på dansk.

Se orkestrator-rangering →

Modeludvalg og testfrekvens

Hver morgen evaluerer vi over 350 tilgængelige modeller via OpenRouter API. Vi vælger automatisk de 12 modeller som præsterer bedst, fordelt på tre priskategorier: premium, mellemklasse og budget. Udvalget er ikke hardkodet — nye modeller testes automatisk når de dukker op, og modeller som fejler erstattes med næste kandidat fra samme priskategori.
Daglig benchmark kl. 07:30 med standardiserede opgaver per sprog (dansk, svensk, norsk). Ugentlig rapport hver fredag med trender og anbefalinger.

Fokus

Vi fokuserer på praktisk brug i Skandinavien — ikke akademiske benchmarks. Vi tester det almindelige folk og virksomheder faktisk gør med AI i hverdagen. Resultaterne opdateres dagligt, ikke en gang i kvartalet.

Ændringslog — hvad vi har opdaget

Reelle observationer fra daglig benchmark. Dette er det kvartalsrapporter ikke fanger.

2026-05-29 Magnum v4 72B optrådte på topplisten med dansk score 4/5 — højeste dansk-score blandt alle modeller i dag.
2026-05-28 GPT-4 (v0314) scorede 0/10 — forældet model blev automatisk erstattet af næste kandidat fra premium-kategorien.
2026-05-28 inclusionAI: Ling-2.6-flash hoppede fra 4.3 → 7.2 over natten uden varsel fra leverandøren — en stille opdatering fanget af daglig testing.
2026-05-25 Llama 3.1 8B Instruct forbedrede sig fra 7.3 → 9.0 — budget-model med pludselig ydeevshopp, nu blandt de absolut bedste.
2026-05-25 Claude Opus 4.7 (Fast) gik fra 6.4 → 8.2 (+1.8) på én dag — stille leverandøropdatering uden annoncering.
2026-05-21 Z.ai GLM 5.1 krasjede fra 6.5 → 1.2 (-5.3) — API-ustabilitet hos leverandøren. Modellen blev flagget og reservekandidat aktiveret.
2026-05-20 Z.ai GLM 5.1 dukkede op for første gang i benchmark med score 6.5/10.
2026-05-18 AionLabs: Aion-1.0 scorede 0/5 på dansk ved debut — premium-kategorien, men klarte ikke dansk. Erstattet automatisk.

Hvorfor daglig testing?

De fleste AI-benchmarks publiceres månedligt eller kvartalsvis. Men AI-modeller opdateres kontinuerligt — ofte uden at leverandøren annoncerer det. En model som var bedst i sidste uge kan have faldet til nummer 5 denne uge. Daglig testing fanger disse ændringer i sanntid.

AI-markedet ændrer sig fra dag til dag. Leverandører opdaterer modelerne uden forvarsel — vi har fanget flere sådanne «stille opdateringer» fordi scoren pludselig ændrede sig. En rapport i kvartalet fanger ikke dette. Daglig testing gør det.

For virksomheder som bruger AI i daglig drift betyder dette at beslutningsgrundlaget altid er opdateret. Du behøver ikke vente 3 måneder på næste rapport for at vide om du bruger den rigtige model.

Se også

← Tilbage til forsiden