Hodnocení v rámci

Skóre platí jen, je-li ukotveno
v rámci kompetencí.

Každá šablona roleplay deklaruje, které kompetence každý scénář testuje. AI skóruje přesně tato kritéria, bez keyword heuristik, bez katalogu platformy vnuceného vám.

Report ze session

Medical visit, Skeptický kardiolog

Stážistka: Marcela R. · Kanál: Hlas · 12 min

87

prošlo

Kompetence zmrazené při zadání

PROD-001

Zvládnutí produktu

92

OBJ-003

Zvládání námitek

78

COMP-014

Shoda s labelem

95

Hodnocená kritéria (rubrika)

Argumenty podložené klinickými důkazy 92
Pochopení rutiny HCP 85
Zotavení po silné námitce 78
Uzavření s jasným dalším krokem 88
Shoda s labelem RDC 658 (compliance blocker) 95

AI insighty · Silné stránky

Ukotvila pitch v profilu hypertenzního pacienta HCP v 1:15. Citovala studii fáze 3, když byla vyzvána na účinnost.

Oblasti ke zlepšení

V 4:32 se HCP ptal na interakci s beta-blokátory a odpověď byla vágní ("Zjistím a ozvu se"). Doporučení: cílené školení na lékové interakce.

Rámec vašeho tenanta

Každý tenant má vlastní katalog kompetencí a kritérií. Klonovaný z centrálních katalogů podle vertikály při onboardingu, pak plně editovatelný, přidáváte kompetence specifické pro vaše podnikání, které v žádném katalogu neexistují.

AI skóruje. Kód rozhoduje.

AI vlastní skórování. Pravidlo pass/fail je auditovatelný kód, včetně "compliance blockerů", které nechají session propadnout i s vysokým skóre (např. porušení labelu → fail, i s 95 celkem).

Zmrazeno pro audit

Kritéria zmrazená při zadání. Prompt připnutý ke konkrétní verzi. Přepis + zvuk + report uložené s konfigurovatelnou retencí. Audit přichází hotový.

Od rámce k reportu.

Celý řetězec je deterministický a auditovatelný.

01

Kurátorství rámce

Admin tenanta edituje kompetence, kritéria a kontexty scénářů. Přidat, editovat, deaktivovat, vše je verzováno.

02

Šablona deklaruje

V průvodci autor volí, které kompetence každý scénář šablony testuje. Váha každého kritéria je konfigurovatelná.

03

Roleplay zmrazuje

Při zadání jsou kritéria snapshotnuta v roleplay. I když je šablona později editována, session běží proti snapshotu.

04

AI skóruje, kód rozhoduje

Async job: staví prompt + přepis, žádá AI o strukturovaný JSON, parsuje ho, aplikuje pravidla pass/fail, ukládá kompletní agregát.

Proč ne multi-AI konsensus

Více AI se nesčítá, rozchází se.

Vyzkoušeli jsme to: pustit 4 modely paralelně a vzít průměr. Problém je, že každý model má jinou systematickou předpojatost a průměr ředí signál od toho modelu, který se trefil.

Místo toho: jeden kurátorovaný model per surface, s verzovaným promptem proti rubrice. Deterministické, debuggovatelné, porovnatelné napříč sessions.

framework-based konsensus

  • ✗ 4× náklady bez 4× jistoty
  • ✗ Ředí divergentní bias
  • ✗ Obtížné debuggovat jediné skóre
  • ✗ Nekonzistentní diff napříč sessions

Jeden provider per surface

  • ✓ Kontrolované náklady per volání
  • ✓ Verzovaný a auditovatelný prompt
  • ✓ Reprodukovatelný výsledek
  • ✓ Konzistentní srovnání napříč sessions

Připraveni změnit způsob školení vašeho týmu?

Bezplatná zkušební verze pro týmy do 20. Enterprise? Promluvme si.