Evaluering via rammeverk
En score teller bare hvis den er forankret
i kompetanserammeverket.
Hver roleplay-mal erklærer hvilke kompetanser hvert scenario tester. AI scorer akkurat de kriteriene, ingen nøkkelord-heuristikk, ingen plattformomspennende katalog påtvunget deg.
Øktrapport
Legebesøk, skeptisk kardiolog
Trainee: Marcela R. · Kanal: stemme · 12 min
87
bestått
Kompetanser låst ved sesjonsstart
PROD-001
Produktbeherskelse
92
OBJ-003
Innvendingshåndtering
78
COMP-014
Label compliance
95
Vurderte kriterier (rubric)
AI-innsikt · Styrker
Forankret pitchen i HCPs profil av hypertensive pasienter innen 1:15. Siterte en fase 3-studie da hen ble utfordret på effekten.
Områder å forbedre
På 4:32 spurte HCP-en om interaksjon med betablokkere, og svaret var vagt ("Jeg sjekker og kommer tilbake til deg"). Anbefaling: målrettet trening på legemiddelinteraksjoner.
Kundeen din sitt rammeverk
Hver kunde har sin egen katalog av kompetanser og kriterier. Klonet fra de sentrale katalogene per vertikal ved onboarding, deretter fullt redigerbar, slik at du legger til kompetanser som er spesifikke for din virksomhet og ikke finnes i noen katalog.
AI scorer. Kode bestemmer.
AI eier scoringen. Regelen for bestått/ikke bestått er reviderbar kode, inkludert "compliance blockers" som feller økten selv ved høy score (f.eks. brudd på etiketten → ikke bestått, selv med 95 totalt).
Frosset for revisjon
Kriterier låst ved sesjonsstart. Prompt pinnet til en bestemt versjon. Transkript, lyd og rapport lagres med konfigurerbar oppbevaring. Revisjon er klar ut av boksen.
Fra rammeverk til rapport.
Hele kjeden er deterministisk og reviderbar.
01
Kurasjon av rammeverket
Kunde-admin redigerer kompetanser, kriterier og scenariokontekster. Legg til, rediger, deaktiver, alt er versjonert.
02
Malen erklærer
I wizarden velger forfatteren hvilke kompetanser hvert scenario i malen tester. Vekten på hvert kriterium er konfigurerbar.
03
Roleplay fryser
Ved sesjonsstart blir kriteriene snapshottet på roleplayen. Selv om malen redigeres senere, kjører økten mot snapshottet.
04
AI scorer, kode bestemmer
Async-jobb: bygger prompten og transkriptet, spør AI om strukturert JSON, parser den, anvender bestått/ikke bestått-regler og lagrer hele aggregatet.
Hvorfor ikke multi-AI-konsensus
Flere AI-er legger seg ikke sammen, de divergerer.
Vi prøvde det: kjør 4 modeller parallelt og ta gjennomsnittet. Problemet er at hver modell har sin egen systematiske bias, og gjennomsnittet vasker ut signalet fra den modellen som hadde rett.
Heller: én kurert modell per surface, med en versjonert prompt vurdert mot rubricen. Deterministisk, debuggbart, sammenlignbart på tvers av økter.
Multi-AI-konsensus
- ✗ 4× kostnaden uten 4× sikkerheten
- ✗ Vasker ut divergent bias
- ✗ Vanskelig å debugge en enkelt score
- ✗ Inkonsistent diff på tvers av økter
Én leverandør per surface
- ✓ Kostnad kontrollert per kall
- ✓ Versjonert og reviderbar prompt
- ✓ Reproduserbart resultat
- ✓ Konsistent sammenligning på tvers av økter
Passer perfekt med
Adaptive Track
Gap i rammeverket → automatisk roleplay
Rammeverket på denne siden er input-en Adaptive Track bruker for å kartlegge kompetansegap.
Les mer →Dashboards
Fremdrift per kompetanse
Følg hvert teammedlem som stiger (eller faller) på hvert kriterium i rammeverket over tid.
Les mer →Compliance
Revisjonslogg for hvert kall
Prompt, modell, tokens, kostnad, latency, alt logget for regulatorisk revisjon.
Les mer →Klar til å forandre hvordan teamet deres trener?
For virksomheter fra 50 ansatte. Reserver 45 minutter, så tenker vi oppsettet sammen med dere.