Evaluasi kerangka kerja

Skor hanya berarti jika berlabuh
pada kerangka kompetensi.

Setiap template roleplay mendeklarasikan kompetensi apa yang diuji setiap skenario. AI menilai persis kriteria tersebut, tanpa heuristik kata kunci, tanpa katalog platform-wide yang dipaksakan pada Anda.

Laporan sesi

Kunjungan Medis, Kardiolog yang Skeptis

Peserta pelatihan: Marcela R. · Kanal: Suara · 12 min

87

lulus

Kompetensi yang dibekukan saat dispatch

PROD-001

Penguasaan produk

92

OBJ-003

Penanganan keberatan

78

COMP-014

Kepatuhan label

95

Kriteria yang dievaluasi (rubrik)

Argumen berdasarkan bukti klinis 92
Pemahaman rutinitas HCP 85
Pemulihan setelah keberatan kuat 78
Menutup dengan langkah berikutnya yang jelas 88
Kepatuhan label RDC 658 (compliance blocker) 95

Insight AI · Kekuatan

Menanchorkan pitch pada profil pasien hipertensi HCP pada 1:15. Mengutip studi fase-3 ketika ditantang soal efikasi.

Area yang perlu diperbaiki

Pada 4:32 HCP bertanya tentang interaksi dengan beta-blocker dan respons-nya samar ("saya cek dan kabari nanti"). Rekomendasi: pelatihan tertarget tentang interaksi obat.

Kerangka kerja perusahaan Anda

Setiap perusahaan memiliki katalog kompetensi dan kriteria sendiri. Dikloning dari katalog pusat per vertikal saat onboarding, lalu sepenuhnya dapat diedit, Anda menambahkan kompetensi spesifik untuk bisnis Anda yang tidak ada dalam katalog manapun.

AI menilai. Kode memutuskan.

AI bertanggung jawab atas penilaian. Aturan lulus/gagal adalah kode yang dapat diaudit, termasuk "compliance blocker" yang menggagalkan sesi bahkan dengan skor tinggi (mis. melanggar label → gagal, bahkan dengan total 95).

Dibekukan untuk audit

Kriteria dibekukan saat dispatch. Prompt di-pin ke versi spesifik. Transkripsi + audio + laporan disimpan dengan retensi yang dapat dikonfigurasi. Audit langsung tersedia.

Dari kerangka kerja ke laporan.

Seluruh rantai bersifat deterministik dan dapat diaudit.

01

Kurasi kerangka kerja

Admin perusahaan mengedit kompetensi, kriteria dan konteks skenario. Tambah, edit, nonaktifkan, semuanya diversi.

02

Template mendeklarasikan

Di wizard, penulis memilih kompetensi apa yang diuji setiap skenario template. Bobot setiap kriteria dapat dikonfigurasi.

03

Roleplay membekukan

Saat dispatch, kriteria di-snapshot ke roleplay. Bahkan jika template diedit kemudian, sesi berjalan terhadap snapshot tersebut.

04

AI menilai, kode memutuskan

Job asinkron: menyusun prompt + transkripsi, meminta AI menghasilkan JSON terstruktur, mem-parse-nya, menerapkan aturan lulus/gagal, menyimpan agregat lengkap.

Mengapa bukan konsensus multi-AI

Beberapa AI tidak saling menambah, malah menyimpang.

Kami coba: jalankan 4 model paralel dan ambil rata-rata. Masalahnya setiap model punya bias sistematis berbeda dan rata-rata mengencerkan sinyal dari model yang benar.

Sebagai gantinya: satu model yang dikurasi per surface, dengan prompt yang diversi dan diuji terhadap rubrik. Deterministik, dapat di-debug, dapat dibandingkan lintas sesi.

Konsensus multi-AI

  • ✗ 4× biaya tanpa 4× keyakinan
  • ✗ Mengencerkan bias yang berbeda
  • ✗ Sulit men-debug skor tunggal
  • ✗ Diff tidak konsisten lintas sesi

Satu provider per surface

  • ✓ Biaya terkontrol per panggilan
  • ✓ Prompt diversi dan dapat diaudit
  • ✓ Hasil dapat direproduksi
  • ✓ Perbandingan konsisten lintas sesi

Siap mengubah cara tim Anda berlatih?

Uji coba gratis untuk tim hingga 20. Enterprise? Mari bicara.