場次報告
醫療訪問,懷疑的心臟科醫師
受訓者:Marcela R. · 通路:語音 · 12 分鐘
87
通過
在派發當下凍結的能力
PROD-001
產品熟稔度
92
OBJ-003
異議處理
78
COMP-014
仿單依從性
95
評估標準(rubric)
AI 洞察 · 強項
在 1 分 15 秒就把 pitch 錨定在 HCP 的高血壓患者樣態。被挑戰療效時,引用第 3 期試驗的結果。
可改進之處
在 4 分 32 秒,HCP 詢問與 β 阻斷劑的交互作用時,回應模糊(「我查一下再回覆您」)。建議:對藥物交互作用做精準輔導。
您企業的能力框架
每位企業都有自己的能力與評估標準目錄。在 onboarding 時依垂直由中央目錄複製過來,之後完全可編輯,您可以加入任何目錄都沒有、屬於您業務的能力。
AI 打分。程式碼決定。
AI 負責打分。通過/不通過規則由可稽核的程式碼決定,包含「合規 blocker」,可在分數很高的情況下仍判定不通過(例如違反仿單 → 不通過,即使整體 95 分)。
為稽核凍結
評估標準在 Roleplay 啟動時凍結。AI 指示鎖在特定版本。逐字稿、音訊、報表皆保存,且保留期可設定。稽核開箱即用。
從框架到報表。
整條鏈都是確定且可稽核的。
01
框架維護
企業管理者編輯能力、評估標準與情境脈絡。新增、編輯、停用,全部版本化。
02
範本宣告
在精靈中,作者選擇範本的每一個情境要測試哪些能力。每項標準的權重可設定。
03
Roleplay 凍結
在派發當下,評估標準會快照到 Roleplay 上。即使日後範本被編輯,場次仍依該快照執行。
04
AI 打分,程式碼決定
非同步工作:組合 prompt + 逐字稿、向 AI 請求結構化 JSON、解析、套用通過/不通過規則、保存完整彙整。
為何不採多 AI 共識
多個 AI 不會加總,會發散。
我們試過:跑 4 個模型再取平均。問題是每個模型有不同的系統性偏誤,平均會稀釋掉答對那個模型的訊號。
改採:每個 surface 用一個精挑的模型,搭配對 rubric 驗證過的版本化 prompt。確定、可除錯、跨場次可比較。
多 AI 共識
- ✗ 4 倍成本但信心並未變 4 倍
- ✗ 稀釋發散的偏誤
- ✗ 單一分數難以除錯
- ✗ 跨場次差異不一致
每個 surface 一個供應商
- ✓ 每次呼叫成本可控
- ✓ Prompt 版本化且可稽核
- ✓ 結果可重現
- ✓ 跨場次比較一致