Evaluación por marco

Una puntuación solo cuenta si está anclada
en el marco de competencias.

Cada plantilla de roleplay declara qué competencias evalúa cada escenario. La IA puntúa exactamente esos criterios, sin heurísticas de palabras clave, sin un catálogo común a toda la plataforma impuesto sobre ti.

Informe de sesión

Visita médica, cardióloga escéptica

Alumna: Marcela R. · Canal: Voz · 12 min

87

apto

Competencias congeladas al asignar

PROD-001

Dominio del producto

92

OBJ-003

Manejo de objeciones

78

COMP-014

Compliance de etiqueta

95

Criterios evaluados (rúbrica)

Argumentos basados en evidencia clínica 92
Comprensión de la rutina del profesional sanitario 85
Recuperación tras una objeción fuerte 78
Cierre con un siguiente paso claro 88
Compliance de etiqueta RDC 658 (bloqueante) 95

Insights de la IA · Fortalezas

Ancló el discurso en el perfil de paciente hipertenso del profesional antes de 1:15. Citó un estudio fase 3 al ser cuestionada sobre eficacia.

Áreas a mejorar

A las 4:32 el profesional preguntó por la interacción con betabloqueantes y la respuesta fue vaga ("lo verifico y te lo confirmo"). Recomendación: formación específica sobre interacciones medicamentosas.

El marco de tu tenant

Cada tenant tiene su propio catálogo de competencias y criterios. Se clona desde los catálogos centrales por vertical en el onboarding y, a partir de ahí, es totalmente editable; añades competencias específicas de tu negocio que no existen en ningún catálogo.

La IA puntúa. El código decide.

La IA se encarga de la puntuación. La regla de apto/no apto es código auditable, incluidos los "bloqueantes de compliance" que tumban la sesión incluso con una nota alta (p. ej., violar la etiqueta → no apto, aunque la nota global sea 95).

Congelado para auditoría

Criterios congelados al asignar. Prompt fijado a una versión concreta. Transcripción, audio e informe almacenados con retención configurable. La auditoría sale de serie.

Del marco al informe.

Toda la cadena es determinista y auditable.

01

Curación del marco

El admin del tenant edita competencias, criterios y contextos de escenario. Añadir, editar o desactivar, todo queda versionado.

02

La plantilla declara

En el asistente, el autor selecciona qué competencias evalúa cada escenario de la plantilla. El peso de cada criterio es configurable.

03

El roleplay congela

Al asignarse, los criterios se snapshotean en el roleplay. Aunque la plantilla se edite después, la sesión corre contra el snapshot.

04

La IA puntúa, el código decide

Job asíncrono: monta el prompt con la transcripción, pide JSON estructurado a la IA, lo parsea, aplica las reglas de apto/no apto y persiste el agregado completo.

Por qué no consenso multi-IA

Varias IAs no suman, divergen.

Lo probamos: ejecutar 4 modelos en paralelo y promediar. El problema es que cada modelo tiene un sesgo sistemático distinto y el promedio diluye la señal del que lo acertó.

En su lugar: un modelo curado por superficie, con un prompt versionado validado contra la rúbrica. Determinista, debuggable, comparable entre sesiones.

Consenso multi-IA

  • ✗ 4× el coste sin 4× la confianza
  • ✗ Diluye sesgos divergentes
  • ✗ Difícil debuggear una nota individual
  • ✗ Diff inconsistente entre sesiones

Un proveedor por superficie

  • ✓ Coste controlado por llamada
  • ✓ Prompt versionado y auditable
  • ✓ Resultado reproducible
  • ✓ Comparación consistente entre sesiones

¿Listo para transformar cómo se forma tu equipo?

Para empresas a partir de 50 colaboradores. Reserva 45 minutos y pensamos el setup contigo.