Evaluación por marco

Una calificación solo cuenta si está anclada
al marco de competencias.

Cada plantilla de roleplay declara qué competencias evalúa cada escenario. La IA califica exactamente esos criterios, sin heurísticas de keywords, sin un catálogo a nivel plataforma impuesto sobre ti.

Reporte de sesión

Visita médica, Cardiólogo escéptico

Alumna: Marcela R. · Canal: Voz · 12 min

87

aprobada

Competencias congeladas al envío

PROD-001

Dominio del producto

92

OBJ-003

Manejo de objeciones

78

COMP-014

Cumplimiento de prospecto

95

Criterios evaluados (rúbrica)

Argumentos fundamentados en evidencia clínica 92
Comprensión de la rutina del profesional de la salud 85
Recuperación tras una objeción fuerte 78
Cierre con un próximo paso claro 88
Cumplimiento del prospecto RDC 658 (bloqueador de cumplimiento) 95

Insights de la IA · Fortalezas

Ancló el pitch en el perfil de paciente hipertenso del profesional de la salud a la 1:15. Citó un estudio fase 3 cuando fue desafiada sobre eficacia.

Áreas de mejora

A las 4:32 el profesional de la salud preguntó sobre interacción con betabloqueantes y la respuesta fue vaga ("voy a revisar y le contesto"). Recomendación: capacitación dirigida en interacciones medicamentosas.

El marco de tu tenant

Cada tenant tiene su propio catálogo de competencias y criterios. Clonado desde los catálogos centrales por vertical en el onboarding, después totalmente editable, agregas competencias específicas de tu negocio que no existen en ningún catálogo.

La IA califica. El código decide.

La IA es dueña del scoring. La regla de pass/fail es código auditable, incluyendo "bloqueadores de cumplimiento" que reprueban la sesión incluso con calificación alta (p. ej. violar el prospecto → reprobada, incluso con 95 general).

Congelado para auditoría

Criterios congelados al envío. Prompt fijado a una versión específica. Transcripción + audio + reporte almacenados con retención configurable. La auditoría sale de la caja.

Del marco al reporte.

Toda la cadena es determinista y auditable.

01

Curaduría del marco

El administrador del tenant edita competencias, criterios y contextos de escenarios. Agregar, editar, desactivar, todo está versionado.

02

La plantilla declara

En el asistente, el autor elige qué competencias evalúa cada escenario de la plantilla. El peso de cada criterio es configurable.

03

El roleplay congela

Al momento del envío, los criterios se capturan en snapshot en el roleplay. Incluso si la plantilla se edita después, la sesión corre contra el snapshot.

04

La IA califica, el código decide

Job asíncrono: arma el prompt + transcripción, pide a la IA un JSON estructurado, lo parsea, aplica reglas de pass/fail, persiste el agregado completo.

Por qué no consenso multi-IA

Varias IA no se suman, divergen.

Lo probamos: correr 4 modelos en paralelo y tomar el promedio. El problema es que cada modelo tiene un sesgo sistemático distinto, y el promedio diluye la señal del modelo que acertó.

En su lugar: un modelo curado por superficie, con un prompt versionado y validado contra la rúbrica. Determinista, debuggable, comparable entre sesiones.

Consenso multi-IA

  • ✗ 4× el costo sin 4× la confianza
  • ✗ Diluye sesgos divergentes
  • ✗ Difícil debuggear una calificación única
  • ✗ Diff inconsistente entre sesiones

Un único proveedor por superficie

  • ✓ Costo controlado por llamada
  • ✓ Prompt versionado y auditable
  • ✓ Resultado reproducible
  • ✓ Comparación consistente entre sesiones

¿Listo para transformar cómo entrena tu equipo?

Para empresas desde 50 colaboradores. Reserva 45 minutos y pensamos juntos el setup.