Raamwerk-evaluatie

Een score telt alleen als die verankerd is
in het competentieraamwerk.

Elk roleplay-sjabloon verklaart welke competenties elk scenario toetst. De AI scoort precies die criteria, geen trefwoordheuristiek, geen platformbrede catalogus die u wordt opgelegd.

Demo aanvragen Terug naar overzicht

Sessierapport

Medische visite, sceptische cardioloog

Trainee: Marcela R., Kanaal: Voice, 12 min

geslaagd

Competenties vastgezet bij de start van de sessie

PROD-001

Productkennis

OBJ-003

Bezwaarbehandeling

COMP-014

Labelcompliance

Geëvalueerde criteria (rubriek)

Argumenten onderbouwd met klinisch bewijs 92

Begrip van de HCP-routine 85

Herstel na een stevig bezwaar 78

Afsluiting met duidelijke vervolgstap 88

Labelcompliance RDC 658 (compliance-blocker) 95

AI-inzichten, sterke punten

Op 1:15 het verhaal verankerd in het profiel van de hypertensieve patiënt van de HCP. Een fase-3-studie geciteerd toen er werd doorgevraagd op werkzaamheid.

Verbeterpunten

Op 4:32 vroeg de HCP naar interactie met bètablokkers en het antwoord was vaag ("Ik check het en kom erop terug"). Aanbeveling: gerichte training over medicijninteracties.

Het raamwerk van uw bedrijf

Elke klant heeft zijn eigen catalogus van competenties en criteria. Gekloond uit de centrale catalogi per branche bij onboarding en daarna volledig bewerkbaar, u voegt competenties toe die specifiek zijn voor uw business en in geen enkele catalogus voorkomen.

De AI scoort. Code beslist.

De AI is eigenaar van het scoren. De regel voor slagen/zakken is controleerbare code, inclusief "compliance blockers" die de sessie laten zakken zelfs bij een hoge score (bijv. labelovertreding → gezakt, ook met 95 totaal).

Bevroren voor audit

Criteria vastgezet bij de start van de sessie. Prompt vastgepind op een specifieke versie. Transcript, audio en rapport opgeslagen met configureerbare retentie. Audit zit standaard ingebouwd.

Van raamwerk naar rapport.

De hele keten is deterministisch en controleerbaar.

Raamwerkbeheer

De klant-admin bewerkt competenties, criteria en scenariocontexten. Toevoegen, bewerken, deactiveren, alles is geversioneerd.

Sjabloon verklaart

In de wizard kiest de auteur welke competenties elk scenario van het sjabloon toetst. De weging van elk criterium is configureerbaar.

Roleplay bevriest

Bij de start van de sessie worden de criteria vastgelegd op de roleplay. Zelfs als het sjabloon later wordt bewerkt, draait de sessie tegen de snapshot.

AI scoort, code beslist

Async job: bouwt de prompt plus transcript, vraagt de AI om gestructureerde JSON, parseert die, past slagen/zakken-regels toe, slaat het volledige geheel op.

Waarom geen multi-AI consensus

Meerdere AIs tellen niet op, ze divergeren.

We hebben het geprobeerd: 4 modellen parallel laten draaien en het gemiddelde nemen. Het probleem is dat elk model een andere systematische bias heeft, en het gemiddelde verdunt het signaal van het model dat het wel goed had.

In plaats daarvan: één zorgvuldig gekozen model per surface, met een geversioneerde prompt die tegen de rubriek getoetst is. Deterministisch, debugbaar, vergelijkbaar tussen sessies.

framework evaluation