Ocena oparta na ramach

Wynik liczy się tylko, gdy jest zakotwiczony
w ramach kompetencji.

Każdy szablon roleplay deklaruje, które kompetencje testuje każdy scenariusz. AI ocenia dokładnie te kryteria, bez heurystyk słów kluczowych, bez ogólnoplatformowego katalogu narzucanego z góry.

Raport sesji

Wizyta medyczna, sceptyczny kardiolog

Stażystka: Marcela R., Kanał: Głos, 12 min

87

zaliczone

Kompetencje ustalone przy starcie sesji

PROD-001

Opanowanie produktu

92

OBJ-003

Radzenie sobie z obiekcjami

78

COMP-014

Zgodność z ulotką

95

Ocenione kryteria (rubryka)

Argumenty oparte na dowodach klinicznych 92
Zrozumienie rutyny HCP 85
Odbicie po silnej obiekcji 78
Zamknięcie z jasnym kolejnym krokiem 88
Zgodność z ulotką RDC 658 (compliance blocker) 95

Insights AI, mocne strony

Zakotwiczył pitch w profilu pacjenta z nadciśnieniem HCP do 1:15. Cytował badanie fazy 3, gdy został wyzwany na skuteczność.

Obszary do poprawy

O 4:32 HCP zapytał o interakcję z beta-blokerami i odpowiedź była niejasna ("sprawdzę i wrócę"). Rekomendacja: ukierunkowane szkolenie z interakcji leków.

Ramy kompetencji Twojego klienta

Każdy klient ma własny katalog kompetencji i kryteriów. Klonowane z centralnych katalogów według branży przy onboardingu, potem w pełni edytowalne, dodajesz kompetencje specyficzne dla swojego biznesu, których nie ma w żadnym katalogu.

AI ocenia. Kod decyduje.

AI odpowiada za ocenianie. Reguła pass/fail to audytowalny kod, w tym "compliance blockery", które oblają sesję nawet przy wysokim wyniku (np. naruszenie ulotki → oblany, nawet z 95 ogólnie).

Zamrożone na potrzeby audytu

Kryteria ustalone przy starcie sesji. Prompt przypięty do konkretnej wersji. Transkrypcja + audio + raport przechowywane z konfigurowalną retencją. Audyt out of the box.

Od ramy do raportu.

Cały łańcuch jest deterministyczny i audytowalny.

01

Kuracja ramy

Admin klienta edytuje kompetencje, kryteria oraz konteksty scenariuszy. Dodawanie, edycja, dezaktywacja, wszystko jest wersjonowane.

02

Szablon deklaruje

W wizardzie autor wybiera, które kompetencje testuje każdy scenariusz szablonu. Waga każdego kryterium jest konfigurowalna.

03

Roleplay zamraża

Przy wysyłce kryteria są zapisywane jako snapshot na roleplay. Nawet jeśli szablon zostanie później edytowany, sesja działa na snapshocie.

04

AI ocenia, kod decyduje

Asynchroniczne zadanie: buduje prompt + transkrypcję, prosi AI o ustrukturyzowany JSON, parsuje, stosuje reguły pass/fail, utrwala pełen agregat.

Dlaczego nie konsensus wielu AI

Wiele AI nie sumuje się, dywerguje.

Próbowaliśmy: uruchom 4 modele równolegle i weź średnią. Problem polega na tym, że każdy model ma inną systematyczną stronniczość, a średnia rozcieńcza sygnał z modelu, który trafił.

Zamiast tego: jeden wybrany model per powierzchnia, z wersjonowanym promptem zweryfikowanym względem rubryki. Deterministycznie, łatwe do debugu, porównywalne między sesjami.

Konsensus wielu AI

  • ✗ 4× koszt bez 4× pewności
  • ✗ Rozcieńcza rozbieżną stronniczość
  • ✗ Trudno debugować pojedynczy wynik
  • ✗ Niespójny diff między sesjami

Jeden dostawca per powierzchnia

  • ✓ Kontrolowany koszt per wywołanie
  • ✓ Wersjonowany i audytowalny prompt
  • ✓ Powtarzalny wynik
  • ✓ Spójne porównanie między sesjami

Gotowi zmienić sposób, w jaki Państwa zespół się szkoli?

Dla firm od 50 pracowników. Rezerwują Państwo 45 minut, a my wspólnie projektujemy wdrożenie.