Évaluation par référentiel

Un score ne compte que s'il est ancré
dans le référentiel de compétences.

Chaque template de roleplay déclare les compétences que chaque scénario teste. L'IA note exactement ces critères, sans heuristiques de mots-clés, sans catalogue universel de plateforme imposé.

Rapport de session

Visite médicale, cardiologue sceptique

Apprenante : Marcela R. · Canal : Voix · 12 min

87

réussie

Compétences figées au lancement

PROD-001

Maîtrise produit

92

OBJ-003

Gestion des objections

78

COMP-014

Conformité au label

95

Critères évalués (rubrique)

Arguments fondés sur des preuves cliniques 92
Compréhension de la routine du professionnel de santé 85
Récupération après une objection forte 78
Clôture avec étape suivante claire 88
Conformité au label RDC 658 (bloqueur de conformité) 95

Insights IA · Points forts

A ancré le pitch sur le profil de patient hypertendu du professionnel de santé à 1:15. A cité une étude de phase 3 lorsqu'elle a été challengée sur l'efficacité.

Axes d'amélioration

À 4:32 le médecin a posé une question sur l'interaction avec les bêta-bloquants et la réponse a été vague ("je vérifie et je reviens vers vous"). Recommandation : formation ciblée sur les interactions médicamenteuses.

Le référentiel de votre tenant

Chaque tenant a son propre catalogue de compétences et de critères. Cloné depuis les catalogues centraux par secteur lors de l'onboarding, puis entièrement modifiable, vous ajoutez les compétences spécifiques à votre métier qui n'existent dans aucun catalogue.

L'IA note. Le code décide.

L'IA gère la notation. La règle pass/fail est du code auditable, incluant des "bloqueurs de conformité" qui font échouer la session même avec un score élevé (par exemple violer le label → échec, même avec 95 au global).

Figé pour audit

Critères figés au lancement. Prompt épinglé sur une version précise. Transcription + audio + rapport stockés avec rétention configurable. L'audit est livré clé en main.

Du référentiel au rapport.

Toute la chaîne est déterministe et auditable.

01

Curation du référentiel

L'admin du tenant édite les compétences, critères et contextes de scénario. Ajouter, modifier, désactiver, tout est versionné.

02

Le template déclare

Dans l'assistant, l'auteur sélectionne les compétences que chaque scénario du template teste. Le poids de chaque critère est configurable.

03

Le roleplay fige

Au lancement, les critères sont snapshotés sur le roleplay. Même si le template est édité plus tard, la session s'exécute contre le snapshot.

04

L'IA note, le code décide

Job asynchrone : construit le prompt + transcription, demande à l'IA un JSON structuré, le parse, applique les règles pass/fail, persiste l'agrégat complet.

Pourquoi pas de consensus multi-IA

Plusieurs IA ne s'additionnent pas, elles divergent.

Nous avons essayé : faire tourner 4 modèles en parallèle et prendre la moyenne. Le problème, c'est que chaque modèle a un biais systématique différent, et la moyenne dilue le signal du modèle qui a vu juste.

À la place : un modèle curaté par surface, avec un prompt versionné vérifié contre la rubrique. Déterministe, déboguable, comparable entre sessions.

Consensus multi-IA

  • ✗ 4× le coût sans 4× la confiance
  • ✗ Dilue les biais divergents
  • ✗ Difficile de déboguer un score unique
  • ✗ Diff incohérent entre sessions

Single-provider par surface

  • ✓ Coût maîtrisé par appel
  • ✓ Prompt versionné et auditable
  • ✓ Résultat reproductible
  • ✓ Comparaison cohérente entre sessions

Prêt à transformer la formation de votre équipe ?

Pour les entreprises à partir de 50 collaborateurs. Réservez 45 minutes et nous concevons le setup avec vous.