Effektive Kriterien zu schreiben unterscheidet einen Monitor, der echte Probleme aufzeigt, von einem, der Ihre Warteschlange mit Rauschen überflutet. Dieser Leitfaden behandelt Best Practices für Monitor-Flag-Kriterien und Scorecard-Attributbeschreibungen. Monitore bewerten derzeit nur Fin AI Agent Gespräche.
Hinweis: Monitors ist als Teil des Pro Add-ons verfügbar.
Monitor-Flag-Kriterien vs. Scorecard-Attributbeschreibungen
Diese beiden Kriterienarten funktionieren unterschiedlich und müssen daher unterschiedlich formuliert werden.
| Monitor-Flag-Kriterien | Scorecard-Kriterienbeschreibungen |
Zweck | Entscheidet, welche Gespräche überprüft werden | Definiert, wie jedes Gespräch bewertet wird |
Logik | Ja/Nein - jeder Monitor läuft unabhängig | Wettbewerb - KI wählt die beste Übereinstimmung aus |
Hauptproblem | Reduzierung von Fehlalarmen und Fehlbewertungen | Überlappungen zwischen Kriterienwerten eliminieren |
Best Practices für das Schreiben von Monitor-Flag-Kriterien
Monitore laufen als unabhängige Ja/Nein-Prüfungen. Mehrere Monitore können dasselbe Gespräch markieren – und das ist in Ordnung. Deshalb ist Präzision wichtiger als Unterscheidung.
1. Beschreiben Sie beobachtbares Verhalten, nicht vermutete Absicht
Konzentrieren Sie sich auf das, was im Gespräch erscheint.
Vermeiden: Kunde ist frustriert
Bevorzugen: Kunde verwendet Ausdrücke wie Das ist inakzeptabel, Ich bin extrem enttäuscht oder Das ist lächerlich.
Die KI arbeitet besser, wenn sie explizite Signale statt emotionaler Interpretationen bewertet.
2. Fügen Sie konkrete Beispiele hinzu
Beispiele reduzieren Mehrdeutigkeit erheblich.
Verwenden Sie explizite Formulierungsmuster: z. B. kündigen Sie mein Abonnement, schließen Sie mein Konto, löschen Sie meine Daten
Beispiele verankern das Modell in der realen Sprache.
3. Fügen Sie explizite Ausschlüsse hinzu
Die Reduzierung von Fehlalarmen ist für Monitore entscheidend.
Beispiel: Kunde verwendet Schimpfwörter. AUSSCHLUSS: milde Ausdrücke wie verdammt oder Mist. Wenn etwas den Monitor nicht auslösen soll, sagen Sie es klar.
4. Verwenden Sie quantifizierbare Schwellenwerte
Vermeiden Sie vage Formulierungen.
Schlecht: Fin gibt eine kurze Antwort.
Besser: Fin Antwort enthält weniger als 50 Wörter.
Spezifische Schwellenwerte verbessern die Konsistenz.
5. Zerlegen Sie mehrstufige Logik in nummerierte Kriterien
Wenn Ihr Monitor von Reihenfolge oder Muster abhängt, strukturieren Sie es klar:
Kunde drückt Frustration aus.
Fin antwortet, ohne die Emotion anzuerkennen.
Kunde wiederholt die Beschwerde.
Das macht die Logik deterministisch und leichter bewertbar.
6. Halten Sie es einfach
Wenn die Regel einfach ist, machen Sie sie nicht komplizierter als nötig.
Beispiel: Fin schlägt nächste Schritte vor (z. B. Bitte versuchen Sie, Ihren Cache zu leeren, melden Sie sich ab und wieder an, klicken Sie auf diesen Link).
Klarheit schlägt Komplexität.
7. Verwenden Sie ‚explizit‘, um direkte Kundensprache zu verlangen
Wenn Ihr Monitor nur auslösen soll, wenn ein Kunde etwas direkt sagt – nicht nur andeutet – fügen Sie das Wort „explizit“ in Ihre Kriterien ein. Ohne dieses Wort kann die KI die Absicht aus dem Kontext ableiten und Gespräche zuordnen, bei denen das Verhalten nur angedeutet, nicht gesagt wurde.
Ohne „explizit“: Kunde bittet um Rückruf – könnte mit „Können Sie mich mit dem Sicherheitsteam verbinden?“ übereinstimmen, da die KI dies als direkte Kontaktanfrage interpretieren könnte.
Mit „explizit“: Kunde bittet explizit um Rückruf – passt nur, wenn der Kunde direkt fragt, z. B. „Kann ich einen Anruf bekommen?“ oder „Bitte rufen Sie mich an.“
Tipp: Verwenden Sie das Test-Monitor-Tool, um Ihre Kriterien mit echten Gesprächen zu validieren, bevor Sie es aktivieren. Aktualisieren Sie die Flag-Kriterien und führen Sie den Test erneut durch, bis die Ergebnisse genau das widerspiegeln, was der Monitor erfassen soll.
Best Practices für das Schreiben von Scorecard-Kriterienbeschreibungen
Beginnen Sie mit dem Kernprinzip: Kriterien konkurrieren. Die KI betrachtet die gesamte Liste und wählt die beste Übereinstimmung für jedes Kriterium aus. Ihre Aufgabe ist es, diese Wahl offensichtlich zu machen.
1. Verwenden Sie klare, prägnante Namen
Halten Sie Namen kurz und spezifisch. Wer die Liste liest, sollte den Zweck sofort verstehen, ohne die Beschreibung zu öffnen.
Schlecht: Kundenkommunikationsprobleme
Besser: Ton – unhöflich oder abweisend
2. Schreiben Sie umfassende Beschreibungen
Beschreibungen tragen den Großteil des Klassifikationssignals.
Beschreiben Sie explizit alle Gesprächsarten, die dazugehören.
Fügen Sie Schlüsselwörter, gängige Formulierungen und Beispiele ein.
Denken Sie an Randfälle und nehmen Sie diese auf.
Klären Sie, wie gute und schlechte Fälle aussehen.
Die Beschreibung sollte es der KI erleichtern, reale Formulierungen zu erkennen, nicht nur abstrakte Definitionen.
3. Machen Sie Kriterien klar unterscheidbar
Kriterien innerhalb derselben Scorecard sollten sich konzeptionell nicht überschneiden.
Vermeiden Sie semantische Überschneidungen.
Stellen Sie sicher, dass jedes Attribut eine klare Grenze hat.
Wenn zwei Attribute aus demselben Grund anwendbar sein könnten, verfeinern Sie eines davon.
Es ist in Ordnung, wenn ein einzelnes Gespräch mehrere Kriterien in der Scorecard erfüllt. Wichtig ist, dass innerhalb jedes Kriterien-Sets die Werte klar trennbar sind.
4. Bewerten Sie Qualität systematisch
Bewerten Sie bei der Überprüfung Ihrer Taxonomie jedes Kriterium nach:
Klarheit / Prägnanz
Beschreibungskomplettheit
Kriterienunterscheidung
Überlappende Kriterien (falls vorhanden)
Endnote + Kommentar
Diese strukturierte Überprüfung zwingt Sie, Definitionen zu präzisieren und Mehrdeutigkeiten zu reduzieren – was die Klassifikationsleistung direkt verbessert.
FAQs
Wie lang sollten meine Flag-Kriterien sein?
Wie lang sollten meine Flag-Kriterien sein?
Es gibt keine feste Länge – die richtige Länge ist so lang, wie es braucht, um das Verhalten präzise zu beschreiben. Ein einfacher Monitor benötigt vielleicht nur zwei oder drei Sätze. Ein komplexer (z. B. zur Erkennung mehrstufiger Fehler) braucht eine strukturierte, nummerierte Beschreibung. Lieber mehr Details als zu wenig.
Kann ich dieselben Scorecard-Kriterien in mehreren Scorecards verwenden?
Kann ich dieselben Scorecard-Kriterien in mehreren Scorecards verwenden?
Ja – Kriterien-Titel und Beschreibungen sind wiederverwendbar. Sobald Sie Kriterien erstellt haben, können Sie sie mehreren Scorecards hinzufügen. Beachten Sie, dass frühere Bewertungsergebnisse nicht wiederverwendet werden können und in jeder Scorecard neu festgelegt werden müssen.
Was ist der Unterschied zwischen Monitor-Flag-Kriterien und Scorecard-Kriterienbeschreibung?
Was ist der Unterschied zwischen Monitor-Flag-Kriterien und Scorecard-Kriterienbeschreibung?
Monitor-Flag-Kriterien bestimmen, ob ein Gespräch überhaupt in einen Monitor aufgenommen wird – es ist ein Ja/Nein-Filter. Scorecard-Kriterienbeschreibungen definieren, wie jedes Gespräch bewertet wird, sobald es im Monitor ist. Denken Sie an den Monitor als Netz und die Scorecard als Lineal.
