Hodnocení v rámci

Skóre platí jen, je-li ukotveno
v rámci kompetencí.

Každá šablona roleplay deklaruje, které kompetence každý scénář testuje. AI skóruje přesně tato kritéria, bez keyword heuristik, bez katalogu platformy vnuceného vám.

Vyžádejte demo Zpět na přehled

Report ze session

Medical visit, Skeptický kardiolog

Stážistka: Marcela R. · Kanál: Hlas · 12 min

prošlo

Kompetence zmrazené při zadání

PROD-001

Zvládnutí produktu

OBJ-003

Zvládání námitek

COMP-014

Shoda s labelem

Hodnocená kritéria (rubrika)

Argumenty podložené klinickými důkazy 92

Pochopení rutiny HCP 85

Zotavení po silné námitce 78

Uzavření s jasným dalším krokem 88

Shoda s labelem RDC 658 (compliance blocker) 95

AI insighty · Silné stránky

Ukotvila pitch v profilu hypertenzního pacienta HCP v 1:15. Citovala studii fáze 3, když byla vyzvána na účinnost.

Oblasti ke zlepšení

V 4:32 se HCP ptal na interakci s beta-blokátory a odpověď byla vágní ("Zjistím a ozvu se"). Doporučení: cílené školení na lékové interakce.

Rámec vašeho tenanta

Každý tenant má vlastní katalog kompetencí a kritérií. Klonovaný z centrálních katalogů podle vertikály při onboardingu, pak plně editovatelný, přidáváte kompetence specifické pro vaše podnikání, které v žádném katalogu neexistují.

AI skóruje. Kód rozhoduje.

AI vlastní skórování. Pravidlo pass/fail je auditovatelný kód, včetně "compliance blockerů", které nechají session propadnout i s vysokým skóre (např. porušení labelu → fail, i s 95 celkem).

Zmrazeno pro audit

Kritéria zmrazená při zadání. Prompt připnutý ke konkrétní verzi. Přepis + zvuk + report uložené s konfigurovatelnou retencí. Audit přichází hotový.

Od rámce k reportu.

Celý řetězec je deterministický a auditovatelný.

Kurátorství rámce

Admin tenanta edituje kompetence, kritéria a kontexty scénářů. Přidat, editovat, deaktivovat, vše je verzováno.

Šablona deklaruje

V průvodci autor volí, které kompetence každý scénář šablony testuje. Váha každého kritéria je konfigurovatelná.

Roleplay zmrazuje

Při zadání jsou kritéria snapshotnuta v roleplay. I když je šablona později editována, session běží proti snapshotu.

AI skóruje, kód rozhoduje

Async job: staví prompt + přepis, žádá AI o strukturovaný JSON, parsuje ho, aplikuje pravidla pass/fail, ukládá kompletní agregát.

Proč ne multi-AI konsensus

Více AI se nesčítá, rozchází se.

Vyzkoušeli jsme to: pustit 4 modely paralelně a vzít průměr. Problém je, že každý model má jinou systematickou předpojatost a průměr ředí signál od toho modelu, který se trefil.

Místo toho: jeden kurátorovaný model per surface, s verzovaným promptem proti rubrice. Deterministické, debuggovatelné, porovnatelné napříč sessions.

framework-based konsensus