Hodnocení v rámci
Skóre platí jen, je-li ukotveno
v rámci kompetencí.
Každá šablona roleplay deklaruje, které kompetence každý scénář testuje. AI skóruje přesně tato kritéria, bez keyword heuristik, bez katalogu platformy vnuceného vám.
Report ze session
Medical visit, Skeptický kardiolog
Stážistka: Marcela R. · Kanál: Hlas · 12 min
87
prošlo
Kompetence zmrazené při zadání
PROD-001
Zvládnutí produktu
92
OBJ-003
Zvládání námitek
78
COMP-014
Shoda s labelem
95
Hodnocená kritéria (rubrika)
AI insighty · Silné stránky
Ukotvila pitch v profilu hypertenzního pacienta HCP v 1:15. Citovala studii fáze 3, když byla vyzvána na účinnost.
Oblasti ke zlepšení
V 4:32 se HCP ptal na interakci s beta-blokátory a odpověď byla vágní ("Zjistím a ozvu se"). Doporučení: cílené školení na lékové interakce.
Rámec vašeho tenanta
Každý tenant má vlastní katalog kompetencí a kritérií. Klonovaný z centrálních katalogů podle vertikály při onboardingu, pak plně editovatelný, přidáváte kompetence specifické pro vaše podnikání, které v žádném katalogu neexistují.
AI skóruje. Kód rozhoduje.
AI vlastní skórování. Pravidlo pass/fail je auditovatelný kód, včetně "compliance blockerů", které nechají session propadnout i s vysokým skóre (např. porušení labelu → fail, i s 95 celkem).
Zmrazeno pro audit
Kritéria zmrazená při zadání. Prompt připnutý ke konkrétní verzi. Přepis + zvuk + report uložené s konfigurovatelnou retencí. Audit přichází hotový.
Od rámce k reportu.
Celý řetězec je deterministický a auditovatelný.
01
Kurátorství rámce
Admin tenanta edituje kompetence, kritéria a kontexty scénářů. Přidat, editovat, deaktivovat, vše je verzováno.
02
Šablona deklaruje
V průvodci autor volí, které kompetence každý scénář šablony testuje. Váha každého kritéria je konfigurovatelná.
03
Roleplay zmrazuje
Při zadání jsou kritéria snapshotnuta v roleplay. I když je šablona později editována, session běží proti snapshotu.
04
AI skóruje, kód rozhoduje
Async job: staví prompt + přepis, žádá AI o strukturovaný JSON, parsuje ho, aplikuje pravidla pass/fail, ukládá kompletní agregát.
Proč ne multi-AI konsensus
Více AI se nesčítá, rozchází se.
Vyzkoušeli jsme to: pustit 4 modely paralelně a vzít průměr. Problém je, že každý model má jinou systematickou předpojatost a průměr ředí signál od toho modelu, který se trefil.
Místo toho: jeden kurátorovaný model per surface, s verzovaným promptem proti rubrice. Deterministické, debuggovatelné, porovnatelné napříč sessions.
framework-based konsensus
- ✗ 4× náklady bez 4× jistoty
- ✗ Ředí divergentní bias
- ✗ Obtížné debuggovat jediné skóre
- ✗ Nekonzistentní diff napříč sessions
Jeden provider per surface
- ✓ Kontrolované náklady per volání
- ✓ Verzovaný a auditovatelný prompt
- ✓ Reprodukovatelný výsledek
- ✓ Konzistentní srovnání napříč sessions
Skvěle se doplňuje s
Adaptivní cesta
Mezera v rámci → automatický roleplay
Rámec na této stránce je vstup, který Adaptivní cesta používá k mapování mezer v kompetencích.
Více informací →Dashboardy
Pokrok per kompetence
Sledujte každého člena týmu, jak roste (nebo klesá) v každém kritériu rámce v čase.
Více informací →Compliance
Auditní záznam pro každé volání
Prompt, model, tokeny, náklady, latence, vše logováno pro regulatorní audit.
Více informací →Připraveni změnit způsob školení vašeho týmu?
Bezplatná zkušební verze pro týmy do 20. Enterprise? Promluvme si.