Raamwerk-evaluatie
Een score telt alleen als die verankerd is
in het competentieraamwerk.
Elk roleplay-sjabloon verklaart welke competenties elk scenario toetst. De AI scoort precies die criteria, geen trefwoordheuristiek, geen platformbrede catalogus die u wordt opgelegd.
Sessierapport
Medische visite, sceptische cardioloog
Trainee: Marcela R., Kanaal: Voice, 12 min
87
geslaagd
Competenties vastgezet bij de start van de sessie
PROD-001
Productkennis
92
OBJ-003
Bezwaarbehandeling
78
COMP-014
Labelcompliance
95
Geëvalueerde criteria (rubriek)
AI-inzichten, sterke punten
Op 1:15 het verhaal verankerd in het profiel van de hypertensieve patiënt van de HCP. Een fase-3-studie geciteerd toen er werd doorgevraagd op werkzaamheid.
Verbeterpunten
Op 4:32 vroeg de HCP naar interactie met bètablokkers en het antwoord was vaag ("Ik check het en kom erop terug"). Aanbeveling: gerichte training over medicijninteracties.
Het raamwerk van uw bedrijf
Elke klant heeft zijn eigen catalogus van competenties en criteria. Gekloond uit de centrale catalogi per branche bij onboarding en daarna volledig bewerkbaar, u voegt competenties toe die specifiek zijn voor uw business en in geen enkele catalogus voorkomen.
De AI scoort. Code beslist.
De AI is eigenaar van het scoren. De regel voor slagen/zakken is controleerbare code, inclusief "compliance blockers" die de sessie laten zakken zelfs bij een hoge score (bijv. labelovertreding → gezakt, ook met 95 totaal).
Bevroren voor audit
Criteria vastgezet bij de start van de sessie. Prompt vastgepind op een specifieke versie. Transcript, audio en rapport opgeslagen met configureerbare retentie. Audit zit standaard ingebouwd.
Van raamwerk naar rapport.
De hele keten is deterministisch en controleerbaar.
01
Raamwerkbeheer
De klant-admin bewerkt competenties, criteria en scenariocontexten. Toevoegen, bewerken, deactiveren, alles is geversioneerd.
02
Sjabloon verklaart
In de wizard kiest de auteur welke competenties elk scenario van het sjabloon toetst. De weging van elk criterium is configureerbaar.
03
Roleplay bevriest
Bij de start van de sessie worden de criteria vastgelegd op de roleplay. Zelfs als het sjabloon later wordt bewerkt, draait de sessie tegen de snapshot.
04
AI scoort, code beslist
Async job: bouwt de prompt plus transcript, vraagt de AI om gestructureerde JSON, parseert die, past slagen/zakken-regels toe, slaat het volledige geheel op.
Waarom geen multi-AI consensus
Meerdere AIs tellen niet op, ze divergeren.
We hebben het geprobeerd: 4 modellen parallel laten draaien en het gemiddelde nemen. Het probleem is dat elk model een andere systematische bias heeft, en het gemiddelde verdunt het signaal van het model dat het wel goed had.
In plaats daarvan: één zorgvuldig gekozen model per surface, met een geversioneerde prompt die tegen de rubriek getoetst is. Deterministisch, debugbaar, vergelijkbaar tussen sessies.
framework evaluation
- ✗ 4x de kosten zonder 4x de zekerheid
- ✗ Verdunt divergente bias
- ✗ Moeilijk om één score te debuggen
- ✗ Inconsistent verschil tussen sessies
Eén provider per surface
- ✓ Kosten beheerst per call
- ✓ Geversioneerde, controleerbare prompt
- ✓ Reproduceerbaar resultaat
- ✓ Consistente vergelijking tussen sessies
Past perfect bij
Adaptive Track
Raamwerkkloof → automatische roleplay
Het raamwerk op deze pagina is de input die de Adaptive Track gebruikt om competentiekloven in kaart te brengen.
Meer informatie →Dashboards
Voortgang per competentie
Volg elk teamlid dat stijgt (of daalt) op elk raamwerkcriterium in de tijd.
Meer informatie →Compliance
Audit log voor elke call
Prompt, model, tokens, kosten, latentie, alles gelogd voor regelgevende audit.
Meer informatie →Klaar om de training van uw team te transformeren?
Voor bedrijven vanaf 50 medewerkers. Plan 45 minuten en we denken de setup samen met u uit.