Évaluation par référentiel

Un score ne compte que s'il est ancré
dans le référentiel de compétences.

Chaque template de roleplay déclare les compétences que chaque scénario teste. L'IA note exactement ces critères, sans heuristiques de mots-clés, sans catalogue universel de plateforme imposé.

Demander une démo Retour à la vue d'ensemble

Rapport de session

Visite médicale, cardiologue sceptique

Apprenante : Marcela R. · Canal : Voix · 12 min

réussie

Compétences figées au lancement

PROD-001

Maîtrise produit

OBJ-003

Gestion des objections

COMP-014

Conformité au label

Critères évalués (rubrique)

Arguments fondés sur des preuves cliniques 92

Compréhension de la routine du professionnel de santé 85

Récupération après une objection forte 78

Clôture avec étape suivante claire 88

Conformité au label RDC 658 (bloqueur de conformité) 95

Insights IA · Points forts

A ancré le pitch sur le profil de patient hypertendu du professionnel de santé à 1:15. A cité une étude de phase 3 lorsqu'elle a été challengée sur l'efficacité.

Axes d'amélioration

À 4:32 le médecin a posé une question sur l'interaction avec les bêta-bloquants et la réponse a été vague ("je vérifie et je reviens vers vous"). Recommandation : formation ciblée sur les interactions médicamenteuses.

Le référentiel de votre tenant

Chaque tenant a son propre catalogue de compétences et de critères. Cloné depuis les catalogues centraux par secteur lors de l'onboarding, puis entièrement modifiable, vous ajoutez les compétences spécifiques à votre métier qui n'existent dans aucun catalogue.

L'IA note. Le code décide.

L'IA gère la notation. La règle pass/fail est du code auditable, incluant des "bloqueurs de conformité" qui font échouer la session même avec un score élevé (par exemple violer le label → échec, même avec 95 au global).

Figé pour audit

Critères figés au lancement. Prompt épinglé sur une version précise. Transcription + audio + rapport stockés avec rétention configurable. L'audit est livré clé en main.

Du référentiel au rapport.

Toute la chaîne est déterministe et auditable.

Curation du référentiel

L'admin du tenant édite les compétences, critères et contextes de scénario. Ajouter, modifier, désactiver, tout est versionné.

Le template déclare

Dans l'assistant, l'auteur sélectionne les compétences que chaque scénario du template teste. Le poids de chaque critère est configurable.

Le roleplay fige

Au lancement, les critères sont snapshotés sur le roleplay. Même si le template est édité plus tard, la session s'exécute contre le snapshot.

L'IA note, le code décide

Job asynchrone : construit le prompt + transcription, demande à l'IA un JSON structuré, le parse, applique les règles pass/fail, persiste l'agrégat complet.

Pourquoi pas de consensus multi-IA

Plusieurs IA ne s'additionnent pas, elles divergent.

Nous avons essayé : faire tourner 4 modèles en parallèle et prendre la moyenne. Le problème, c'est que chaque modèle a un biais systématique différent, et la moyenne dilue le signal du modèle qui a vu juste.

À la place : un modèle curaté par surface, avec un prompt versionné vérifié contre la rubrique. Déterministe, déboguable, comparable entre sessions.

Consensus multi-IA