Evaluering via rammeverk

En score teller bare hvis den er forankret
i kompetanserammeverket.

Hver roleplay-mal erklærer hvilke kompetanser hvert scenario tester. AI scorer akkurat de kriteriene, ingen nøkkelord-heuristikk, ingen plattformomspennende katalog påtvunget deg.

Øktrapport

Legebesøk, skeptisk kardiolog

Trainee: Marcela R. · Kanal: stemme · 12 min

87

bestått

Kompetanser låst ved sesjonsstart

PROD-001

Produktbeherskelse

92

OBJ-003

Innvendingshåndtering

78

COMP-014

Label compliance

95

Vurderte kriterier (rubric)

Argumenter forankret i klinisk evidens 92
Forståelse av HCP-rutinen 85
Gjenoppretting etter en sterk innvending 78
Avslutning med klart neste steg 88
Label compliance RDC 658 (compliance blocker) 95

AI-innsikt · Styrker

Forankret pitchen i HCPs profil av hypertensive pasienter innen 1:15. Siterte en fase 3-studie da hen ble utfordret på effekten.

Områder å forbedre

På 4:32 spurte HCP-en om interaksjon med betablokkere, og svaret var vagt ("Jeg sjekker og kommer tilbake til deg"). Anbefaling: målrettet trening på legemiddelinteraksjoner.

Kundeen din sitt rammeverk

Hver kunde har sin egen katalog av kompetanser og kriterier. Klonet fra de sentrale katalogene per vertikal ved onboarding, deretter fullt redigerbar, slik at du legger til kompetanser som er spesifikke for din virksomhet og ikke finnes i noen katalog.

AI scorer. Kode bestemmer.

AI eier scoringen. Regelen for bestått/ikke bestått er reviderbar kode, inkludert "compliance blockers" som feller økten selv ved høy score (f.eks. brudd på etiketten → ikke bestått, selv med 95 totalt).

Frosset for revisjon

Kriterier låst ved sesjonsstart. Prompt pinnet til en bestemt versjon. Transkript, lyd og rapport lagres med konfigurerbar oppbevaring. Revisjon er klar ut av boksen.

Fra rammeverk til rapport.

Hele kjeden er deterministisk og reviderbar.

01

Kurasjon av rammeverket

Kunde-admin redigerer kompetanser, kriterier og scenariokontekster. Legg til, rediger, deaktiver, alt er versjonert.

02

Malen erklærer

I wizarden velger forfatteren hvilke kompetanser hvert scenario i malen tester. Vekten på hvert kriterium er konfigurerbar.

03

Roleplay fryser

Ved sesjonsstart blir kriteriene snapshottet på roleplayen. Selv om malen redigeres senere, kjører økten mot snapshottet.

04

AI scorer, kode bestemmer

Async-jobb: bygger prompten og transkriptet, spør AI om strukturert JSON, parser den, anvender bestått/ikke bestått-regler og lagrer hele aggregatet.

Hvorfor ikke multi-AI-konsensus

Flere AI-er legger seg ikke sammen, de divergerer.

Vi prøvde det: kjør 4 modeller parallelt og ta gjennomsnittet. Problemet er at hver modell har sin egen systematiske bias, og gjennomsnittet vasker ut signalet fra den modellen som hadde rett.

Heller: én kurert modell per surface, med en versjonert prompt vurdert mot rubricen. Deterministisk, debuggbart, sammenlignbart på tvers av økter.

Multi-AI-konsensus

  • ✗ 4× kostnaden uten 4× sikkerheten
  • ✗ Vasker ut divergent bias
  • ✗ Vanskelig å debugge en enkelt score
  • ✗ Inkonsistent diff på tvers av økter

Én leverandør per surface

  • ✓ Kostnad kontrollert per kall
  • ✓ Versjonert og reviderbar prompt
  • ✓ Reproduserbart resultat
  • ✓ Konsistent sammenligning på tvers av økter

Klar til å forandre hvordan teamet deres trener?

For virksomheter fra 50 ansatte. Reserver 45 minutter, så tenker vi oppsettet sammen med dere.