Raamistiku hindamine

Skoor loeb ainult siis, kui see on ankurdatud
pädevuste raamistikus.

Iga roleplay template deklareerib, milliseid pädevusi iga stsenaarium testib. AI hindab täpselt neid kriteeriume, ilma märksõnade heuristikata, ilma platvormiülese kataloogita, mis sulle peale surutakse.

Küsi demo Tagasi ülevaatesse

Seansi raport

Meditsiinivisiit, skeptiline kardioloog

Õpilane: Marcela R. · Kanal: hääl · 12 min

läbitud

Pädevused fikseeritud dispatchimise hetkel

PROD-001

Tootetundmine

OBJ-003

Vastuväidete käsitlemine

COMP-014

Etiketi vastavus

Hinnatud kriteeriumid (rubriik)

Argumendid kliinilistel tõenditel põhinevad 92

Arusaam HCP rutiinist 85

Taastumine tugeva vastuväite järel 78

Lõpetamine selge järgmise sammuga 88

Etiketi vastavus RDC 658 (compliance blocker) 95

AI insights · tugevused

Ankurdas pitchi HCP hüpertensiivse patsiendi profiilis kell 1:15. Tsiteeris 3. faasi uuringut, kui efektiivsuse osas vaidlustati.

Parandamist vajavad valdkonnad

Kell 4:32 küsis HCP koostoime kohta beetablokaatoritega ja vastus oli ebamäärane ("kontrollin ja annan teada"). Soovitus: sihitud koolitus ravimite koostoimete kohta.

Sinu tenanti raamistik

Igal tenantil on oma pädevuste ja kriteeriumide kataloog. Kloonitud kesksetest kataloogidest vertikali järgi onboardingul, seejärel täielikult muudetav, lisad oma ärile spetsiifilisi pädevusi, mida üheski kataloogis pole.

AI hindab. Kood otsustab.

AI vastutab hindamise eest. Pass/fail reegel on auditeeritav kood, sealhulgas "compliance blockerid", mis kukutavad seansi läbi isegi kõrge skooriga (nt etiketi rikkumine → fail, isegi 95 üldskooriga).

Fikseeritud auditiks

Kriteeriumid fikseeritud dispatchimise hetkel. Prompt pinnitud konkreetsele versioonile. Transkriptsioon + heli + raport salvestatud konfigureeritava säilitamisega. Audit tuleb karbiga kaasa.

Raamistikust raportini.

Kogu ahel on deterministlik ja auditeeritav.

Raamistiku kureerimine

Tenant admin muudab pädevusi, kriteeriume ja stsenaariumide konteksti. Lisa, muuda, deaktiveeri, kõik on versioneeritud.

Template deklareerib

Wizardis valib autor, milliseid pädevusi iga template stsenaarium testib. Iga kriteeriumi kaal on konfigureeritav.

Roleplay fikseerib

Dispatchimise hetkel snapshotitakse kriteeriumid roleplay külge. Isegi kui templati hiljem muudetakse, jookseb seanss snapshoti vastu.

AI hindab, kood otsustab

Asünkroonne töö: ehitab prompti + transkriptsiooni, küsib AI-lt struktureeritud JSON-i, parsib selle, rakendab pass/fail reegleid, salvestab täisaggregaadi.

Miks mitte multi-AI konsensus

Mitu AI-d ei liitu, vaid hajuvad.

Proovisime: jooksuta 4 mudelit paralleelselt ja võta keskmine. Probleem on selles, et igal mudelil on erinev süstemaatiline kallak ja keskmine lahjendab signaali sellelt mudelilt, kes selle õigesti sai.

Selle asemel: üks kureeritud mudel pinna kohta, koos versioneeritud promptiga, mis on rubriigi vastu kontrollitud. Deterministlik, debugiv, seansideülene võrreldav.

multi-AI konsensus