Raamistiku hindamine

Skoor loeb ainult siis, kui see on ankurdatud
pädevuste raamistikus.

Iga roleplay template deklareerib, milliseid pädevusi iga stsenaarium testib. AI hindab täpselt neid kriteeriume, ilma märksõnade heuristikata, ilma platvormiülese kataloogita, mis sulle peale surutakse.

Seansi raport

Meditsiinivisiit, skeptiline kardioloog

Õpilane: Marcela R. · Kanal: hääl · 12 min

87

läbitud

Pädevused fikseeritud dispatchimise hetkel

PROD-001

Tootetundmine

92

OBJ-003

Vastuväidete käsitlemine

78

COMP-014

Etiketi vastavus

95

Hinnatud kriteeriumid (rubriik)

Argumendid kliinilistel tõenditel põhinevad 92
Arusaam HCP rutiinist 85
Taastumine tugeva vastuväite järel 78
Lõpetamine selge järgmise sammuga 88
Etiketi vastavus RDC 658 (compliance blocker) 95

AI insights · tugevused

Ankurdas pitchi HCP hüpertensiivse patsiendi profiilis kell 1:15. Tsiteeris 3. faasi uuringut, kui efektiivsuse osas vaidlustati.

Parandamist vajavad valdkonnad

Kell 4:32 küsis HCP koostoime kohta beetablokaatoritega ja vastus oli ebamäärane ("kontrollin ja annan teada"). Soovitus: sihitud koolitus ravimite koostoimete kohta.

Sinu tenanti raamistik

Igal tenantil on oma pädevuste ja kriteeriumide kataloog. Kloonitud kesksetest kataloogidest vertikali järgi onboardingul, seejärel täielikult muudetav, lisad oma ärile spetsiifilisi pädevusi, mida üheski kataloogis pole.

AI hindab. Kood otsustab.

AI vastutab hindamise eest. Pass/fail reegel on auditeeritav kood, sealhulgas "compliance blockerid", mis kukutavad seansi läbi isegi kõrge skooriga (nt etiketi rikkumine → fail, isegi 95 üldskooriga).

Fikseeritud auditiks

Kriteeriumid fikseeritud dispatchimise hetkel. Prompt pinnitud konkreetsele versioonile. Transkriptsioon + heli + raport salvestatud konfigureeritava säilitamisega. Audit tuleb karbiga kaasa.

Raamistikust raportini.

Kogu ahel on deterministlik ja auditeeritav.

01

Raamistiku kureerimine

Tenant admin muudab pädevusi, kriteeriume ja stsenaariumide konteksti. Lisa, muuda, deaktiveeri, kõik on versioneeritud.

02

Template deklareerib

Wizardis valib autor, milliseid pädevusi iga template stsenaarium testib. Iga kriteeriumi kaal on konfigureeritav.

03

Roleplay fikseerib

Dispatchimise hetkel snapshotitakse kriteeriumid roleplay külge. Isegi kui templati hiljem muudetakse, jookseb seanss snapshoti vastu.

04

AI hindab, kood otsustab

Asünkroonne töö: ehitab prompti + transkriptsiooni, küsib AI-lt struktureeritud JSON-i, parsib selle, rakendab pass/fail reegleid, salvestab täisaggregaadi.

Miks mitte multi-AI konsensus

Mitu AI-d ei liitu, vaid hajuvad.

Proovisime: jooksuta 4 mudelit paralleelselt ja võta keskmine. Probleem on selles, et igal mudelil on erinev süstemaatiline kallak ja keskmine lahjendab signaali sellelt mudelilt, kes selle õigesti sai.

Selle asemel: üks kureeritud mudel pinna kohta, koos versioneeritud promptiga, mis on rubriigi vastu kontrollitud. Deterministlik, debugiv, seansideülene võrreldav.

multi-AI konsensus

  • ✗ 4× kulu ilma 4× kindluseta
  • ✗ Lahjendab lahknevat kallakut
  • ✗ Ühte skoori on raske debugida
  • ✗ Ebajärjekindel diff seansside vahel

Üks pakkuja pinna kohta

  • ✓ Kulu kontrolli all kõne kohta
  • ✓ Versioneeritud ja auditeeritav prompt
  • ✓ Reprodutseeritav tulemus
  • ✓ Järjekindel võrdlus seansside vahel

Valmis muutma viisi, kuidas teie meeskond koolitab?

Tasuta prooviversioon meeskondadele kuni 20 liiget. Ettevõte? Räägime.