セッションレポート
医師訪問、懐疑的な循環器内科医
研修生: Marcela R.・チャネル: 音声・12分
87
合格
ディスパッチ時に確定されたコンピテンシー
PROD-001
製品知識
92
OBJ-003
反論処理
78
COMP-014
ラベル遵守
95
評価基準(ルーブリック)
AIインサイト・強み
1分15秒の時点で、HCPの高血圧患者プロファイルにピッチを紐づけました。有効性について追及された際にはフェーズ3試験を引用しました。
改善ポイント
4分32秒、HCPからβ遮断薬との相互作用を問われた際、回答が曖昧でした(「確認して折り返します」)。推奨事項: 薬物相互作用に特化したトレーニング。
あなたの企業独自のフレームワーク
各企業が固有のコンピテンシーと評価基準のカタログを持ちます。オンボーディング時に業種別のセントラルカタログから複製され、その後は完全に編集可能。どのカタログにも存在しない、自社業務に固有のコンピテンシーを追加できます。
AIが採点、コードが判定。
AIは採点を担当します。合否のルールは監査可能なコードです。「コンプライアンスブロッカー」も含まれており、たとえ全体スコアが高くてもセッションを不合格にできます(例: ラベル違反 → 全体95点でも不合格)。
監査用に確定。
評価基準はロールプレイ開始時に固定されます。AIへの指示も特定のバージョンに固定。トランスクリプト+音声+レポートは設定可能な保管期間で保存されます。監査対応は標準装備です。
フレームワークからレポートまで。
連鎖全体が決定論的で、監査可能です。
01
フレームワークのキュレーション
企業管理者がコンピテンシー、評価基準、シナリオコンテキストを編集。追加、編集、無効化のすべてがバージョン管理されます。
02
テンプレートが宣言
ウィザード上で、テンプレートの各シナリオがテストするコンピテンシーを作成者が選択。各基準の重みも設定可能です。
03
ロールプレイが固定
ディスパッチ時に評価基準がロールプレイ上にスナップショットされます。後でテンプレートを編集しても、そのセッションはスナップショットに対して実行されます。
04
AIが採点、コードが判定
非同期ジョブが、プロンプト+トランスクリプトを構築し、AIに構造化JSONを要求してパース。合否ルールを適用し、完全な集計結果を永続化します。
マルチAIコンセンサスを採用しない理由
複数のAIは積み上がるのではなく、ぶれます。
私たちは試しました。4つのモデルを並列実行して平均を取る方法です。問題は、各モデルが異なる系統的バイアスを持つため、正しい答えを出したモデルのシグナルが平均によって薄まってしまうことでした。
代わりに採用したのは、サーフェスごとに厳選された1つのモデルと、ルーブリックに対して検証されたバージョン管理されたプロンプトです。決定論的で、デバッグ可能で、セッション間で比較できます。
マルチAIコンセンサス
- ✗ 信頼度は4倍にならず、コストだけ4倍に
- ✗ 食い違うバイアスが希釈される
- ✗ 1つのスコアをデバッグするのが困難
- ✗ セッション間で差分が一貫しない
サーフェスごとの単一プロバイダー
- ✓ 呼び出しごとにコストを制御
- ✓ バージョン管理された監査可能なプロンプト
- ✓ 再現性のある結果
- ✓ セッション間で一貫した比較