Raamwerk-evaluatie

Een score telt alleen als die verankerd is
in het competentieraamwerk.

Elk roleplay-sjabloon verklaart welke competenties elk scenario toetst. De AI scoort precies die criteria, geen trefwoordheuristiek, geen platformbrede catalogus die u wordt opgelegd.

Sessierapport

Medische visite, sceptische cardioloog

Trainee: Marcela R., Kanaal: Voice, 12 min

87

geslaagd

Competenties vastgezet bij de start van de sessie

PROD-001

Productkennis

92

OBJ-003

Bezwaarbehandeling

78

COMP-014

Labelcompliance

95

Geëvalueerde criteria (rubriek)

Argumenten onderbouwd met klinisch bewijs 92
Begrip van de HCP-routine 85
Herstel na een stevig bezwaar 78
Afsluiting met duidelijke vervolgstap 88
Labelcompliance RDC 658 (compliance-blocker) 95

AI-inzichten, sterke punten

Op 1:15 het verhaal verankerd in het profiel van de hypertensieve patiënt van de HCP. Een fase-3-studie geciteerd toen er werd doorgevraagd op werkzaamheid.

Verbeterpunten

Op 4:32 vroeg de HCP naar interactie met bètablokkers en het antwoord was vaag ("Ik check het en kom erop terug"). Aanbeveling: gerichte training over medicijninteracties.

Het raamwerk van uw bedrijf

Elke klant heeft zijn eigen catalogus van competenties en criteria. Gekloond uit de centrale catalogi per branche bij onboarding en daarna volledig bewerkbaar, u voegt competenties toe die specifiek zijn voor uw business en in geen enkele catalogus voorkomen.

De AI scoort. Code beslist.

De AI is eigenaar van het scoren. De regel voor slagen/zakken is controleerbare code, inclusief "compliance blockers" die de sessie laten zakken zelfs bij een hoge score (bijv. labelovertreding → gezakt, ook met 95 totaal).

Bevroren voor audit

Criteria vastgezet bij de start van de sessie. Prompt vastgepind op een specifieke versie. Transcript, audio en rapport opgeslagen met configureerbare retentie. Audit zit standaard ingebouwd.

Van raamwerk naar rapport.

De hele keten is deterministisch en controleerbaar.

01

Raamwerkbeheer

De klant-admin bewerkt competenties, criteria en scenariocontexten. Toevoegen, bewerken, deactiveren, alles is geversioneerd.

02

Sjabloon verklaart

In de wizard kiest de auteur welke competenties elk scenario van het sjabloon toetst. De weging van elk criterium is configureerbaar.

03

Roleplay bevriest

Bij de start van de sessie worden de criteria vastgelegd op de roleplay. Zelfs als het sjabloon later wordt bewerkt, draait de sessie tegen de snapshot.

04

AI scoort, code beslist

Async job: bouwt de prompt plus transcript, vraagt de AI om gestructureerde JSON, parseert die, past slagen/zakken-regels toe, slaat het volledige geheel op.

Waarom geen multi-AI consensus

Meerdere AIs tellen niet op, ze divergeren.

We hebben het geprobeerd: 4 modellen parallel laten draaien en het gemiddelde nemen. Het probleem is dat elk model een andere systematische bias heeft, en het gemiddelde verdunt het signaal van het model dat het wel goed had.

In plaats daarvan: één zorgvuldig gekozen model per surface, met een geversioneerde prompt die tegen de rubriek getoetst is. Deterministisch, debugbaar, vergelijkbaar tussen sessies.

framework evaluation

  • ✗ 4x de kosten zonder 4x de zekerheid
  • ✗ Verdunt divergente bias
  • ✗ Moeilijk om één score te debuggen
  • ✗ Inconsistent verschil tussen sessies

Eén provider per surface

  • ✓ Kosten beheerst per call
  • ✓ Geversioneerde, controleerbare prompt
  • ✓ Reproduceerbaar resultaat
  • ✓ Consistente vergelijking tussen sessies

Klaar om de training van uw team te transformeren?

Voor bedrijven vanaf 50 medewerkers. Plan 45 minuten en we denken de setup samen met u uit.