Evaluare pe cadru

Un scor contează doar dacă este ancorat
în cadrul de competențe.

Fiecare template de roleplay declară ce competențe testează fiecare scenariu. AI-ul punctează exact acele criterii, fără euristici de cuvinte-cheie, fără catalog global impus.

Raport de sesiune

Vizită medicală, cardiolog sceptic

Cursant: Marcela R. · Canal: Voce · 12 min

87

promovat

Competențe înghețate la lansare

PROD-001

Stăpânirea produsului

92

OBJ-003

Gestionarea obiecțiilor

78

COMP-014

Conformitate cu eticheta

95

Criterii evaluate (rubrică)

Argumente bazate pe dovezi clinice 92
Înțelegerea rutinei cadrului medical 85
Recuperare după o obiecție puternică 78
Închidere cu un pas următor clar 88
Conformitate cu eticheta RDC 658 (blocaj de conformitate) 95

Insights AI · Puncte forte

A ancorat pitch-ul în profilul de pacient hipertensiv al medicului la 1:15. A citat un studiu de fază 3 când a fost provocat pe eficacitate.

Zone de îmbunătățit

La 4:32 medicul a întrebat despre interacțiunea cu beta-blocante, iar răspunsul a fost vag („voi verifica și revin"). Recomandare: instruire țintită pe interacțiuni medicamentoase.

Cadrul tenant-ului dumneavoastră

Fiecare tenant are propriul catalog de competențe și criterii. Clonat din cataloagele centrale pe verticală la onboarding, apoi complet editabil, adăugați competențe specifice business-ului dumneavoastră care nu există în niciun catalog.

AI-ul punctează. Codul decide.

AI-ul se ocupă de punctare. Regula de pass/fail este cod auditabil, inclusiv „blocaje de conformitate" care eșuează sesiunea chiar și cu un scor mare (de ex. încălcarea etichetei → eșec, chiar și cu 95 general).

Înghețat pentru audit

Criterii înghețate la lansare. Prompt fixat la o versiune specifică. Transcriere + audio + raport stocate cu retenție configurabilă. Audit din prima.

De la cadru la raport.

Întregul lanț este determinist și auditabil.

01

Curatarea cadrului

Administratorul tenant-ului editează competențele, criteriile și contextele de scenariu. Adaugă, editează, dezactivează, totul este versionat.

02

Template-ul declară

În wizard, autorul alege competențele pe care le testează fiecare scenariu al template-ului. Ponderea fiecărui criteriu este configurabilă.

03

Roleplay-ul îngheață

La lansare, criteriile primesc un snapshot pe roleplay. Chiar dacă template-ul este editat ulterior, sesiunea rulează pe snapshot.

04

AI-ul punctează, codul decide

Job asincron: construiește prompt-ul + transcrierea, cere AI-ului JSON structurat, îl parsează, aplică regulile de pass/fail, persistă agregatul complet.

De ce nu consens multi-AI

Un singur model îngrijit per suprafață.

Am testat și am măsurat consensul cu mai multe modele în paralel. Câștigul de acuratețe a fost mic și nu a justificat costul și latența suplimentare.

În schimb: un model îngrijit per suprafață, cu un prompt versionat verificat față de rubrică. Determinist, debug-abil, comparabil între sesiuni.

Consens multi-AI

  • ✗ Cost mai mare per sesiune
  • ✗ Latență suplimentară
  • ✗ Câștig de acuratețe mic
  • ✗ Greu de debug un singur scor agregat

Un singur furnizor per suprafață

  • ✓ Cost controlat per apel
  • ✓ Prompt versionat și auditabil
  • ✓ Rezultat reproductibil
  • ✓ Comparație consecventă între sesiuni

Pregătiți să transformați modul în care se instruiește echipa dvs.?

Probă gratuită pentru echipe de până la 20. Enterprise? Hai să discutăm.