Ocena oparta na ramach

Wynik liczy się tylko, gdy jest zakotwiczony
w ramach kompetencji.

Każdy szablon roleplay deklaruje, które kompetencje testuje każdy scenariusz. AI ocenia dokładnie te kryteria, bez heurystyk słów kluczowych, bez ogólnoplatformowego katalogu narzucanego z góry.

Poproś o demo Wróć do przeglądu

Raport sesji

Wizyta medyczna, sceptyczny kardiolog

Stażystka: Marcela R., Kanał: Głos, 12 min

zaliczone

Kompetencje ustalone przy starcie sesji

PROD-001

Opanowanie produktu

OBJ-003

Radzenie sobie z obiekcjami

COMP-014

Zgodność z ulotką

Ocenione kryteria (rubryka)

Argumenty oparte na dowodach klinicznych 92

Zrozumienie rutyny HCP 85

Odbicie po silnej obiekcji 78

Zamknięcie z jasnym kolejnym krokiem 88

Zgodność z ulotką RDC 658 (compliance blocker) 95

Insights AI, mocne strony

Zakotwiczył pitch w profilu pacjenta z nadciśnieniem HCP do 1:15. Cytował badanie fazy 3, gdy został wyzwany na skuteczność.

Obszary do poprawy

O 4:32 HCP zapytał o interakcję z beta-blokerami i odpowiedź była niejasna ("sprawdzę i wrócę"). Rekomendacja: ukierunkowane szkolenie z interakcji leków.

Ramy kompetencji Twojego klienta

Każdy klient ma własny katalog kompetencji i kryteriów. Klonowane z centralnych katalogów według branży przy onboardingu, potem w pełni edytowalne, dodajesz kompetencje specyficzne dla swojego biznesu, których nie ma w żadnym katalogu.

AI ocenia. Kod decyduje.

AI odpowiada za ocenianie. Reguła pass/fail to audytowalny kod, w tym "compliance blockery", które oblają sesję nawet przy wysokim wyniku (np. naruszenie ulotki → oblany, nawet z 95 ogólnie).

Zamrożone na potrzeby audytu

Kryteria ustalone przy starcie sesji. Prompt przypięty do konkretnej wersji. Transkrypcja + audio + raport przechowywane z konfigurowalną retencją. Audyt out of the box.

Od ramy do raportu.

Cały łańcuch jest deterministyczny i audytowalny.

Kuracja ramy

Admin klienta edytuje kompetencje, kryteria oraz konteksty scenariuszy. Dodawanie, edycja, dezaktywacja, wszystko jest wersjonowane.

Szablon deklaruje

W wizardzie autor wybiera, które kompetencje testuje każdy scenariusz szablonu. Waga każdego kryterium jest konfigurowalna.

Roleplay zamraża

Przy wysyłce kryteria są zapisywane jako snapshot na roleplay. Nawet jeśli szablon zostanie później edytowany, sesja działa na snapshocie.

AI ocenia, kod decyduje

Asynchroniczne zadanie: buduje prompt + transkrypcję, prosi AI o ustrukturyzowany JSON, parsuje, stosuje reguły pass/fail, utrwala pełen agregat.

Dlaczego nie konsensus wielu AI

Wiele AI nie sumuje się, dywerguje.

Próbowaliśmy: uruchom 4 modele równolegle i weź średnią. Problem polega na tym, że każdy model ma inną systematyczną stronniczość, a średnia rozcieńcza sygnał z modelu, który trafił.

Zamiast tego: jeden wybrany model per powierzchnia, z wersjonowanym promptem zweryfikowanym względem rubryki. Deterministycznie, łatwe do debugu, porównywalne między sesjami.

Konsensus wielu AI