框架評估

分數要有意義,
必須錨定在能力框架上。

每個 Roleplay 範本宣告每個情境所測試的能力。AI 只對這些評估標準評分,沒有關鍵字啟發法、沒有強加給您的平台全域目錄。

場次報告

醫療訪問,懷疑的心臟科醫師

受訓者:Marcela R. · 通路:語音 · 12 分鐘

87

通過

在派發當下凍結的能力

PROD-001

產品熟稔度

92

OBJ-003

異議處理

78

COMP-014

仿單依從性

95

評估標準(rubric)

以臨床證據為基礎的論述 92
對 HCP 工作流程的理解 85
在強烈異議後的回復 78
帶有明確後續步驟的結案 88
RDC 658 仿單依從性(合規 blocker) 95

AI 洞察 · 強項

在 1 分 15 秒就把 pitch 錨定在 HCP 的高血壓患者樣態。被挑戰療效時,引用第 3 期試驗的結果。

可改進之處

在 4 分 32 秒,HCP 詢問與 β 阻斷劑的交互作用時,回應模糊(「我查一下再回覆您」)。建議:對藥物交互作用做精準輔導。

您企業的能力框架

每位企業都有自己的能力與評估標準目錄。在 onboarding 時依垂直由中央目錄複製過來,之後完全可編輯,您可以加入任何目錄都沒有、屬於您業務的能力。

AI 打分。程式碼決定。

AI 負責打分通過/不通過規則由可稽核的程式碼決定,包含「合規 blocker」,可在分數很高的情況下仍判定不通過(例如違反仿單 → 不通過,即使整體 95 分)。

為稽核凍結

評估標準在 Roleplay 啟動時凍結。AI 指示鎖在特定版本。逐字稿、音訊、報表皆保存,且保留期可設定。稽核開箱即用。

從框架到報表。

整條鏈都是確定且可稽核的。

01

框架維護

企業管理者編輯能力、評估標準與情境脈絡。新增、編輯、停用,全部版本化。

02

範本宣告

在精靈中,作者選擇範本的每一個情境要測試哪些能力。每項標準的權重可設定。

03

Roleplay 凍結

在派發當下,評估標準會快照到 Roleplay 上。即使日後範本被編輯,場次仍依該快照執行。

04

AI 打分,程式碼決定

非同步工作:組合 prompt + 逐字稿、向 AI 請求結構化 JSON、解析、套用通過/不通過規則、保存完整彙整。

為何不採多 AI 共識

多個 AI 不會加總,會發散。

我們試過:跑 4 個模型再取平均。問題是每個模型有不同的系統性偏誤,平均會稀釋掉答對那個模型的訊號。

改採:每個 surface 用一個精挑的模型,搭配對 rubric 驗證過的版本化 prompt。確定、可除錯、跨場次可比較。

多 AI 共識

  • ✗ 4 倍成本但信心並未變 4 倍
  • ✗ 稀釋發散的偏誤
  • ✗ 單一分數難以除錯
  • ✗ 跨場次差異不一致

每個 surface 一個供應商

  • ✓ 每次呼叫成本可控
  • ✓ Prompt 版本化且可稽核
  • ✓ 結果可重現
  • ✓ 跨場次比較一致

準備好改變您團隊的培訓方式了嗎?

專為 50 人以上的組織設計。預約 45 分鐘,我們會與您一起規劃合適的配置。