Évaluation par référentiel
Un score ne compte que s'il est ancré
dans le référentiel de compétences.
Chaque template de roleplay déclare les compétences que chaque scénario teste. L'IA note exactement ces critères, sans heuristiques de mots-clés, sans catalogue universel de plateforme imposé.
Rapport de session
Visite médicale, cardiologue sceptique
Apprenante : Marcela R. · Canal : Voix · 12 min
87
réussie
Compétences figées au lancement
PROD-001
Maîtrise produit
92
OBJ-003
Gestion des objections
78
COMP-014
Conformité au label
95
Critères évalués (rubrique)
Insights IA · Points forts
A ancré le pitch sur le profil de patient hypertendu du professionnel de santé à 1:15. A cité une étude de phase 3 lorsqu'elle a été challengée sur l'efficacité.
Axes d'amélioration
À 4:32 le médecin a posé une question sur l'interaction avec les bêta-bloquants et la réponse a été vague ("je vérifie et je reviens vers vous"). Recommandation : formation ciblée sur les interactions médicamenteuses.
Le référentiel de votre tenant
Chaque tenant a son propre catalogue de compétences et de critères. Cloné depuis les catalogues centraux par secteur lors de l'onboarding, puis entièrement modifiable, vous ajoutez les compétences spécifiques à votre métier qui n'existent dans aucun catalogue.
L'IA note. Le code décide.
L'IA gère la notation. La règle pass/fail est du code auditable, incluant des "bloqueurs de conformité" qui font échouer la session même avec un score élevé (par exemple violer le label → échec, même avec 95 au global).
Figé pour audit
Critères figés au lancement. Prompt épinglé sur une version précise. Transcription + audio + rapport stockés avec rétention configurable. L'audit est livré clé en main.
Du référentiel au rapport.
Toute la chaîne est déterministe et auditable.
01
Curation du référentiel
L'admin du tenant édite les compétences, critères et contextes de scénario. Ajouter, modifier, désactiver, tout est versionné.
02
Le template déclare
Dans l'assistant, l'auteur sélectionne les compétences que chaque scénario du template teste. Le poids de chaque critère est configurable.
03
Le roleplay fige
Au lancement, les critères sont snapshotés sur le roleplay. Même si le template est édité plus tard, la session s'exécute contre le snapshot.
04
L'IA note, le code décide
Job asynchrone : construit le prompt + transcription, demande à l'IA un JSON structuré, le parse, applique les règles pass/fail, persiste l'agrégat complet.
Pourquoi pas de consensus multi-IA
Plusieurs IA ne s'additionnent pas, elles divergent.
Nous avons essayé : faire tourner 4 modèles en parallèle et prendre la moyenne. Le problème, c'est que chaque modèle a un biais systématique différent, et la moyenne dilue le signal du modèle qui a vu juste.
À la place : un modèle curaté par surface, avec un prompt versionné vérifié contre la rubrique. Déterministe, déboguable, comparable entre sessions.
Consensus multi-IA
- ✗ 4× le coût sans 4× la confiance
- ✗ Dilue les biais divergents
- ✗ Difficile de déboguer un score unique
- ✗ Diff incohérent entre sessions
Single-provider par surface
- ✓ Coût maîtrisé par appel
- ✓ Prompt versionné et auditable
- ✓ Résultat reproductible
- ✓ Comparaison cohérente entre sessions
S'associe parfaitement avec
Adaptive Track
Écart du référentiel vers roleplay automatique
Le référentiel de cette page est l'entrée que l'Adaptive Track utilise pour mapper les écarts de compétences.
En savoir plus →Tableaux de bord
Avancement par compétence
Suivez chaque membre d'équipe progresser (ou reculer) sur chaque critère du référentiel dans le temps.
En savoir plus →Conformité
Journal d'audit pour chaque appel
Prompt, modèle, tokens, coût, latence, tout est journalisé pour l'audit réglementaire.
En savoir plus →Prêt à transformer la formation de votre équipe ?
Pour les entreprises à partir de 50 collaborateurs. Réservez 45 minutes et nous concevons le setup avec vous.