Evaluering via rammeverk

En score teller bare hvis den er forankret
i kompetanserammeverket.

Hver roleplay-mal erklærer hvilke kompetanser hvert scenario tester. AI scorer akkurat de kriteriene, ingen nøkkelord-heuristikk, ingen plattformomspennende katalog påtvunget deg.

Be om demo Tilbake til oversikten

Øktrapport

Legebesøk, skeptisk kardiolog

Trainee: Marcela R. · Kanal: stemme · 12 min

bestått

Kompetanser låst ved sesjonsstart

PROD-001

Produktbeherskelse

OBJ-003

Innvendingshåndtering

COMP-014

Label compliance

Vurderte kriterier (rubric)

Argumenter forankret i klinisk evidens 92

Forståelse av HCP-rutinen 85

Gjenoppretting etter en sterk innvending 78

Avslutning med klart neste steg 88

Label compliance RDC 658 (compliance blocker) 95

AI-innsikt · Styrker

Forankret pitchen i HCPs profil av hypertensive pasienter innen 1:15. Siterte en fase 3-studie da hen ble utfordret på effekten.

Områder å forbedre

På 4:32 spurte HCP-en om interaksjon med betablokkere, og svaret var vagt ("Jeg sjekker og kommer tilbake til deg"). Anbefaling: målrettet trening på legemiddelinteraksjoner.

Kundeen din sitt rammeverk

Hver kunde har sin egen katalog av kompetanser og kriterier. Klonet fra de sentrale katalogene per vertikal ved onboarding, deretter fullt redigerbar, slik at du legger til kompetanser som er spesifikke for din virksomhet og ikke finnes i noen katalog.

AI scorer. Kode bestemmer.

AI eier scoringen. Regelen for bestått/ikke bestått er reviderbar kode, inkludert "compliance blockers" som feller økten selv ved høy score (f.eks. brudd på etiketten → ikke bestått, selv med 95 totalt).

Frosset for revisjon

Kriterier låst ved sesjonsstart. Prompt pinnet til en bestemt versjon. Transkript, lyd og rapport lagres med konfigurerbar oppbevaring. Revisjon er klar ut av boksen.

Fra rammeverk til rapport.

Hele kjeden er deterministisk og reviderbar.

Kurasjon av rammeverket

Kunde-admin redigerer kompetanser, kriterier og scenariokontekster. Legg til, rediger, deaktiver, alt er versjonert.

Malen erklærer

I wizarden velger forfatteren hvilke kompetanser hvert scenario i malen tester. Vekten på hvert kriterium er konfigurerbar.

Roleplay fryser

Ved sesjonsstart blir kriteriene snapshottet på roleplayen. Selv om malen redigeres senere, kjører økten mot snapshottet.

AI scorer, kode bestemmer

Async-jobb: bygger prompten og transkriptet, spør AI om strukturert JSON, parser den, anvender bestått/ikke bestått-regler og lagrer hele aggregatet.

Hvorfor ikke multi-AI-konsensus

Flere AI-er legger seg ikke sammen, de divergerer.

Vi prøvde det: kjør 4 modeller parallelt og ta gjennomsnittet. Problemet er at hver modell har sin egen systematiske bias, og gjennomsnittet vasker ut signalet fra den modellen som hadde rett.

Heller: én kurert modell per surface, med en versjonert prompt vurdert mot rubricen. Deterministisk, debuggbart, sammenlignbart på tvers av økter.

Multi-AI-konsensus