Çerçeve değerlendirmesi

Bir puan yalnızca yetkinlik çerçevesine dayanıyorsa
geçerlidir.

Her roleplay şablonu her senaryonun hangi yetkinlikleri test ettiğini bildirir. Yapay zeka tam olarak bu kriterleri puanlar, anahtar kelime sezgileri yok, size dayatılan platform çapında bir katalog yok.

Demo Talep Edin Genel bakışa dön

Oturum raporu

Tıbbi Ziyaret, Şüpheci Kardiyolog

Stajyer: Marcela R. · Kanal: Ses · 12 dk

geçti

Atamada sabitlenmiş yetkinlikler

PROD-001

Ürün hakimiyeti

OBJ-003

İtiraz yönetimi

COMP-014

Etiket uyumu

Değerlendirilen kriterler (rubrik)

Argümanlar klinik kanıta dayanıyor 92

HCP rutinini anlama 85

Güçlü bir itirazdan sonra toparlanma 78

Net bir sonraki adımla kapatma 88

Etiket uyumu RDC 658 (uyumluluk engelleyici) 95

Yapay zeka içgörüleri · Güçlü yönler

1:15'te HCP'nin hipertansif hasta profiline pitch'i sabitledi. Etkinlik konusunda zorlandığında bir faz 3 çalışmasını alıntıladı.

Geliştirilecek alanlar

4:32'de HCP beta blokerlerle etkileşim sordu ve yanıt belirsizdi ("Kontrol edip size döneceğim"). Öneri: ilaç etkileşimleri üzerine hedefli eğitim.

Kiracınızın çerçevesi

Her kiracının kendi yetkinlik ve kriter kataloğu vardır. Onboarding sırasında dikeye göre merkezi kataloglardan klonlanır, ardından tamamen düzenlenebilir, hiçbir katalogda olmayan iş özelinde yetkinlikler eklersiniz.

Yapay zeka puanlar. Kod karar verir.

Yapay zeka puanlamayı üstlenir. Geçti/kaldı kuralı denetlenebilir koddur, yüksek puanla bile oturumu başarısız olan "uyumluluk engelleyicileri" dahil (örn. etiketi ihlal etmek → genelde 95'le bile başarısız).

Denetim için sabitlenmiş

Atamada sabitlenmiş kriterler. Komut istemi belirli bir sürüme sabitlenmiş. Yapılandırılabilir saklamayla transkript, ses ve rapor saklanır. Denetim kutudan çıkar.

Çerçeveden rapora.

Tüm zincir deterministik ve denetlenebilirdir.

Çerçeve düzenleme

Kiracı yöneticisi yetkinlikleri, kriterleri ve senaryo bağlamlarını düzenler. Ekle, düzenle, devre dışı bırak, her şey sürümlenir.

Şablon bildirir

Sihirbazda yazar, şablonun her senaryosunun hangi yetkinlikleri test ettiğini seçer. Her kriterin ağırlığı yapılandırılabilir.

Roleplay sabitler

Atamada kriterler roleplay üzerinde snapshot alınır. Şablon daha sonra düzenlense bile, oturum snapshot'a karşı çalışır.

Yapay zeka puanlar, kod karar verir

Asenkron iş: komut istemi ve transkripti oluşturur, yapay zekadan yapılandırılmış JSON ister, ayrıştırır, geçti/kaldı kurallarını uygular, tam kümeyi kalıcı yapar.

Neden çoklu yapay zeka konsensüsü değil

Birden fazla yapay zeka toplanmaz, ayrışır.

Denedik: 4 modeli paralel çalıştırıp ortalamayı al. Sorun şu ki her modelin farklı bir sistematik önyargısı var ve ortalama, işi doğru yapan modelin sinyalini seyreltiyor.

Bunun yerine: yüzey başına bir özenle seçilmiş model, rubriğe karşı incelenmiş sürümlenmiş bir komut istemiyle. Deterministik, hata ayıklanabilir, oturumlar arası karşılaştırılabilir.

Çoklu yapay zeka konsensüsü