Zum Hauptinhalt springen

Wie man effektive Kriterien für Monitor & Scorecard schreibt

Best Practices zur Definition klarer, umsetzbarer Kriterien zur Bewertung der Teamleistung mit Monitoren und Scorecards.

Effektive Kriterien zu schreiben unterscheidet einen Monitor, der echte Probleme aufzeigt, von einem, der Ihre Warteschlange mit Rauschen überflutet. Dieser Leitfaden behandelt Best Practices für Monitor-Flag-Kriterien und Scorecard-Attributbeschreibungen. Monitore bewerten derzeit nur Fin AI Agent Gespräche.

Hinweis: Monitors ist als Teil des Pro Add-ons verfügbar.


Monitor-Flag-Kriterien vs. Scorecard-Attributbeschreibungen

Diese beiden Kriterienarten funktionieren unterschiedlich und müssen daher unterschiedlich formuliert werden.

Monitor-Flag-Kriterien

Scorecard-Kriterienbeschreibungen

Zweck

Entscheidet, welche Gespräche überprüft werden

Definiert, wie jedes Gespräch bewertet wird

Logik

Ja/Nein - jeder Monitor läuft unabhängig

Wettbewerb - KI wählt die beste Übereinstimmung aus

Hauptproblem

Reduzierung von Fehlalarmen und Fehlbewertungen

Überlappungen zwischen Kriterienwerten eliminieren


Best Practices für das Schreiben von Monitor-Flag-Kriterien

Monitore laufen als unabhängige Ja/Nein-Prüfungen. Mehrere Monitore können dasselbe Gespräch markieren – und das ist in Ordnung. Deshalb ist Präzision wichtiger als Unterscheidung.

1. Beschreiben Sie beobachtbares Verhalten, nicht vermutete Absicht

  • Konzentrieren Sie sich auf das, was im Gespräch erscheint.

  • Vermeiden: Kunde ist frustriert

  • Bevorzugen: Kunde verwendet Ausdrücke wie Das ist inakzeptabel, Ich bin extrem enttäuscht oder Das ist lächerlich.

Die KI arbeitet besser, wenn sie explizite Signale statt emotionaler Interpretationen bewertet.

2. Fügen Sie konkrete Beispiele hinzu

  • Beispiele reduzieren Mehrdeutigkeit erheblich.

  • Verwenden Sie explizite Formulierungsmuster: z. B. kündigen Sie mein Abonnement, schließen Sie mein Konto, löschen Sie meine Daten

  • Beispiele verankern das Modell in der realen Sprache.

3. Fügen Sie explizite Ausschlüsse hinzu

Die Reduzierung von Fehlalarmen ist für Monitore entscheidend.

Beispiel: Kunde verwendet Schimpfwörter. AUSSCHLUSS: milde Ausdrücke wie verdammt oder Mist. Wenn etwas den Monitor nicht auslösen soll, sagen Sie es klar.

4. Verwenden Sie quantifizierbare Schwellenwerte

  • Vermeiden Sie vage Formulierungen.

  • Schlecht: Fin gibt eine kurze Antwort.

  • Besser: Fin Antwort enthält weniger als 50 Wörter.

  • Spezifische Schwellenwerte verbessern die Konsistenz.

5. Zerlegen Sie mehrstufige Logik in nummerierte Kriterien

Wenn Ihr Monitor von Reihenfolge oder Muster abhängt, strukturieren Sie es klar:

  1. Kunde drückt Frustration aus.

  2. Fin antwortet, ohne die Emotion anzuerkennen.

  3. Kunde wiederholt die Beschwerde.

Das macht die Logik deterministisch und leichter bewertbar.

6. Halten Sie es einfach

  • Wenn die Regel einfach ist, machen Sie sie nicht komplizierter als nötig.

  • Beispiel: Fin schlägt nächste Schritte vor (z. B. Bitte versuchen Sie, Ihren Cache zu leeren, melden Sie sich ab und wieder an, klicken Sie auf diesen Link).

  • Klarheit schlägt Komplexität.

7. Verwenden Sie ‚explizit‘, um direkte Kundensprache zu verlangen

Wenn Ihr Monitor nur auslösen soll, wenn ein Kunde etwas direkt sagt – nicht nur andeutet – fügen Sie das Wort „explizit“ in Ihre Kriterien ein. Ohne dieses Wort kann die KI die Absicht aus dem Kontext ableiten und Gespräche zuordnen, bei denen das Verhalten nur angedeutet, nicht gesagt wurde.

  • Ohne „explizit“: Kunde bittet um Rückruf – könnte mit „Können Sie mich mit dem Sicherheitsteam verbinden?“ übereinstimmen, da die KI dies als direkte Kontaktanfrage interpretieren könnte.

  • Mit „explizit“: Kunde bittet explizit um Rückruf – passt nur, wenn der Kunde direkt fragt, z. B. „Kann ich einen Anruf bekommen?“ oder „Bitte rufen Sie mich an.“

Tipp: Verwenden Sie das Test-Monitor-Tool, um Ihre Kriterien mit echten Gesprächen zu validieren, bevor Sie es aktivieren. Aktualisieren Sie die Flag-Kriterien und führen Sie den Test erneut durch, bis die Ergebnisse genau das widerspiegeln, was der Monitor erfassen soll.


Best Practices für das Schreiben von Scorecard-Kriterienbeschreibungen

Beginnen Sie mit dem Kernprinzip: Kriterien konkurrieren. Die KI betrachtet die gesamte Liste und wählt die beste Übereinstimmung für jedes Kriterium aus. Ihre Aufgabe ist es, diese Wahl offensichtlich zu machen.

1. Verwenden Sie klare, prägnante Namen

  • Halten Sie Namen kurz und spezifisch. Wer die Liste liest, sollte den Zweck sofort verstehen, ohne die Beschreibung zu öffnen.

  • Schlecht: Kundenkommunikationsprobleme

  • Besser: Ton – unhöflich oder abweisend

2. Schreiben Sie umfassende Beschreibungen

Beschreibungen tragen den Großteil des Klassifikationssignals.

  • Beschreiben Sie explizit alle Gesprächsarten, die dazugehören.

  • Fügen Sie Schlüsselwörter, gängige Formulierungen und Beispiele ein.

  • Denken Sie an Randfälle und nehmen Sie diese auf.

  • Klären Sie, wie gute und schlechte Fälle aussehen.

Die Beschreibung sollte es der KI erleichtern, reale Formulierungen zu erkennen, nicht nur abstrakte Definitionen.

3. Machen Sie Kriterien klar unterscheidbar

Kriterien innerhalb derselben Scorecard sollten sich konzeptionell nicht überschneiden.

  • Vermeiden Sie semantische Überschneidungen.

  • Stellen Sie sicher, dass jedes Attribut eine klare Grenze hat.

  • Wenn zwei Attribute aus demselben Grund anwendbar sein könnten, verfeinern Sie eines davon.

Es ist in Ordnung, wenn ein einzelnes Gespräch mehrere Kriterien in der Scorecard erfüllt. Wichtig ist, dass innerhalb jedes Kriterien-Sets die Werte klar trennbar sind.

4. Bewerten Sie Qualität systematisch

Bewerten Sie bei der Überprüfung Ihrer Taxonomie jedes Kriterium nach:

  • Klarheit / Prägnanz

  • Beschreibungskomplettheit

  • Kriterienunterscheidung

  • Überlappende Kriterien (falls vorhanden)

  • Endnote + Kommentar

Diese strukturierte Überprüfung zwingt Sie, Definitionen zu präzisieren und Mehrdeutigkeiten zu reduzieren – was die Klassifikationsleistung direkt verbessert.


FAQs

Wie lang sollten meine Flag-Kriterien sein?

Es gibt keine feste Länge – die richtige Länge ist so lang, wie es braucht, um das Verhalten präzise zu beschreiben. Ein einfacher Monitor benötigt vielleicht nur zwei oder drei Sätze. Ein komplexer (z. B. zur Erkennung mehrstufiger Fehler) braucht eine strukturierte, nummerierte Beschreibung. Lieber mehr Details als zu wenig.

Kann ich dieselben Scorecard-Kriterien in mehreren Scorecards verwenden?

Ja – Kriterien-Titel und Beschreibungen sind wiederverwendbar. Sobald Sie Kriterien erstellt haben, können Sie sie mehreren Scorecards hinzufügen. Beachten Sie, dass frühere Bewertungsergebnisse nicht wiederverwendet werden können und in jeder Scorecard neu festgelegt werden müssen.

Was ist der Unterschied zwischen Monitor-Flag-Kriterien und Scorecard-Kriterienbeschreibung?

Monitor-Flag-Kriterien bestimmen, ob ein Gespräch überhaupt in einen Monitor aufgenommen wird – es ist ein Ja/Nein-Filter. Scorecard-Kriterienbeschreibungen definieren, wie jedes Gespräch bewertet wird, sobald es im Monitor ist. Denken Sie an den Monitor als Netz und die Scorecard als Lineal.

Hat dies deine Frage beantwortet?