Ir al contenido principal

Cómo redactar criterios efectivos para Monitor y Scorecard

Mejores prácticas para definir criterios claros y accionables para evaluar el desempeño del equipo usando monitores y scorecards.

Redactar criterios efectivos es lo que diferencia un Monitor que detecta problemas reales de uno que inunda tu cola con ruido. Esta guía cubre las mejores prácticas para los criterios de bandera del Monitor y las descripciones de atributos del Scorecard. Los monitores actualmente evalúan solo conversaciones de Fin AI Agent.

Nota: Monitors está disponible como parte del complemento Pro.


Criterios de bandera del Monitor vs. descripciones de atributos del scorecard

Estos dos tipos de criterios funcionan de manera diferente, por lo que deben redactarse de forma distinta.

Criterios de bandera del Monitor

Descripciones de criterios del scorecard

Propósito

Decide qué conversaciones se revisan

Define cómo se evalúa cada conversación

Lógica

Sí/no: cada monitor funciona de forma independiente

Competitivo: la IA selecciona la mejor coincidencia única

Desafío clave

Reducir falsos positivos y falsos negativos

Eliminar la superposición entre valores de criterios


Mejores prácticas para redactar criterios de bandera del Monitor

Los monitores funcionan como verificaciones independientes de sí/no. Múltiples Monitors pueden marcar la misma conversación, y eso está bien. Por eso, la precisión importa más que la distinción.

1. Describe el comportamiento observable, no la intención inferida

  • Concéntrate en lo que aparece en la conversación.

  • Evita: El cliente está frustrado

  • Prefiere: El cliente usa frases como Esto es inaceptable, Estoy extremadamente decepcionado o Esto es ridículo.

La IA funciona mejor al evaluar señales explícitas en lugar de interpretaciones emocionales.

2. Incluye ejemplos concretos

  • Los ejemplos reducen drásticamente la ambigüedad.

  • Usa patrones de frases explícitas: por ejemplo, cancelar mi suscripción, cerrar mi cuenta, eliminar mis datos

  • Los ejemplos anclan el modelo al lenguaje del mundo real.

3. Añade exclusiones explícitas

Reducir falsos positivos es crítico para los Monitors.

Ejemplo: El cliente usa lenguaje soez. EXCLUIR: lenguaje leve como damn o crap. Si algo no debe activar el monitor, dilo claramente.

4. Usa umbrales cuantificables

  • Evita redacciones vagas.

  • Malo: Fin da una respuesta corta.

  • Mejor: La respuesta de Fin tiene menos de 50 palabras.

  • Umbrales específicos mejoran la consistencia.

5. Divide la lógica de múltiples pasos en criterios numerados

Si tu Monitor depende de una secuencia o patrón, estructúralo claramente:

  1. El cliente expresa frustración.

  2. Fin responde sin reconocer la emoción.

  3. El cliente repite la queja.

Esto hace que la lógica sea determinista y más fácil de evaluar.

6. Mantenlo simple

  • Si la regla es sencilla, no la compliques demasiado.

  • Ejemplo: Fin sugiere los siguientes pasos (por ejemplo, Por favor intenta limpiar tu caché, Cierra sesión y vuelve a entrar, Haz clic en este enlace).

  • La claridad vence a la complejidad.

7. Usa 'explícitamente' para requerir lenguaje directo del cliente

Si tu Monitor solo debe activarse cuando un cliente dice algo directamente — no solo lo insinúa — incluye la palabra "explícitamente" en tus criterios. Sin ella, la IA puede inferir la intención por contexto y coincidir con conversaciones donde el comportamiento solo fue sugerido, no declarado.

  • Sin "explícitamente": El cliente solicita una llamada — podría coincidir con "¿Puedes conectarme con el equipo de seguridad?" ya que la IA puede inferir que esto implica una solicitud de contacto directo.

  • Con "explícitamente": El cliente solicita explícitamente una llamada — solo coincide si el cliente pregunta directamente, por ejemplo, "¿Puedo recibir una llamada?" o "Por favor, llámame."

Consejo: Usa la herramienta Test Monitor para validar tus criterios con conversaciones reales antes de activarlo. Actualiza los criterios de bandera y vuelve a hacer la prueba hasta que los resultados reflejen con precisión lo que quieres que el Monitor capture.


Mejores prácticas para redactar descripciones de criterios del scorecard

Comienza con el principio básico: los criterios compiten. La IA revisa la lista completa y selecciona la mejor coincidencia única para cada criterio. Tu trabajo es hacer esa elección obvia.

1. Usa nombres claros y concisos

  • Mantén los nombres cortos y específicos. Quien lea la lista debe entender el propósito sin abrir la descripción.

  • Malo: Problemas de comunicación con el cliente

  • Mejor: Tono - Grosero o Despectivo

2. Redacta descripciones completas

Las descripciones llevan la mayor parte de la señal de clasificación.

  • Describe explícitamente todos los tipos de conversación que pertenecen.

  • Incluye palabras clave, frases comunes y ejemplos.

  • Piensa en casos límite e inclúyelos.

  • Aclara cómo son los casos buenos y malos.

La descripción debe facilitar que la IA reconozca frases del mundo real, no solo definiciones abstractas.

3. Haz que los criterios sean claramente distintos

Los criterios dentro del mismo scorecard no deben competir conceptualmente.

  • Evita la superposición semántica.

  • Asegura que cada atributo tenga un límite claro.

  • Si dos atributos podrían aplicarse razonablemente por la misma razón, refina uno de ellos.

Está bien si una sola conversación encaja en múltiples criterios del scorecard. Lo importante es que dentro de cada conjunto de criterios, los valores sean claramente separables.

4. Evalúa la calidad sistemáticamente

Al revisar tu taxonomía, evalúa cada criterio en:

  • Claridad / concisión

  • Completitud de la descripción

  • Distinción de criterios

  • Criterios superpuestos (si los hay)

  • Puntuación final + comentarios

Esta revisión estructurada te obliga a ajustar definiciones y reducir ambigüedades, lo que mejora directamente el rendimiento de la clasificación.


Preguntas frecuentes

¿Cuánto deben durar mis criterios de bandera?

No hay una longitud fija: la longitud correcta es la que se necesite para describir el comportamiento con precisión. Un Monitor simple puede necesitar solo dos o tres oraciones. Uno complejo (como detectar patrones de fallos en varios pasos) puede necesitar una descripción estructurada y numerada. Es mejor pecar de detallado que de escaso.

¿Puedo usar los mismos criterios del scorecard en varios scorecards?

Sí: los títulos y descripciones de criterios son reutilizables. Una vez que creas un criterio, puedes añadirlo a varios scorecards. Ten en cuenta que las puntuaciones anteriores no se pueden reutilizar y deben establecerse desde cero en cada scorecard.

¿Cuál es la diferencia entre los criterios de bandera del monitor y la descripción de criterios del scorecard?

Los criterios de bandera del monitor determinan si una conversación se incluye en un Monitor: es un filtro sí/no. Las descripciones de criterios del scorecard definen cómo se puntúa cada conversación una vez dentro del Monitor. Piensa en el Monitor como la red y el scorecard como la regla.

¿Ha quedado contestada tu pregunta?