メインコンテンツにスキップ

効果的なMonitor&Scorecard基準の書き方

モニターとスコアカードを使ってチームメンバーのパフォーマンスを評価するための、明確で実行可能な基準を定義するベストプラクティス。

効果的な基準を書くことは、実際の問題を浮き彫りにするMonitorと、ノイズでキューを溢れさせるMonitorを分けるものです。このガイドは、Monitorのフラグ基準とScorecardの属性説明の両方のベストプラクティスをカバーします。Monitorsは現在Fin AI Agentの会話のみを評価します。

注意: MonitorsはPro add-onの一部として利用可能です。


Monitorフラグ基準とスコアカード属性説明の違い

これら2種類の基準は異なる動作をするため、異なる書き方が必要です。

Monitorフラグ基準

スコアカード基準の説明

目的

どの会話をレビューするかを決定する

各会話がどのように評価されるかを定義する

ロジック

はい/いいえ - 各Monitorは独立して実行される

競合 - AIは単一の最適な一致を選択する

主な課題

偽陽性と偽陰性を減らす

基準値間の重複を排除する


Monitorフラグ基準を書くためのベストプラクティス

Monitorsは独立したはい/いいえチェックとして実行されます。複数のMonitorsが同じ会話にフラグを立てることがあり、それは問題ありません。このため、区別よりも精度が重要です。

1. 推測された意図ではなく、観察可能な行動を記述する

  • 会話に現れるものに焦点を当てる。

  • 避けるべき例:顧客が苛立っている

  • 推奨例:顧客が「これは受け入れられない」「非常に失望している」「これはばかげている」などのフレーズを使う。

AIは感情的な解釈よりも明示的な信号を評価する方が性能が良い。

2. 具体的な例を含める

  • 例は曖昧さを大幅に減らす。

  • 明示的な表現パターンを使う:例、解約する、アカウントを閉じる、データを削除する

  • 例はモデルを実際の言語に結びつける。

3. 明確な除外を追加する

偽陽性を減らすことはMonitorsにとって重要。

例:顧客が汚い言葉を使う。除外:damnやcrapのような軽い言葉。Monitorをトリガーすべきでない場合は、はっきりとそう記述する。

4. 定量的な閾値を使う

  • 曖昧な表現は避ける。

  • 悪い例:Finが短い返答をする。

  • 良い例:Finの返答が50語未満である。

  • 具体的な閾値は一貫性を向上させる。

5. 複数ステップのロジックは番号付き基準に分ける

Monitorが順序やパターンに依存する場合は、明確に構造化する:

  1. 顧客が苛立ちを表現する。

  2. Finが感情を認識せずに応答する。

  3. 顧客が不満を繰り返す。

これによりロジックが決定的になり、評価が容易になる。

6. シンプルに保つ

  • ルールが単純なら、複雑にしすぎない。

  • 例:Finが次のステップを提案する(例:キャッシュをクリアしてください、ログアウトして再ログインしてください、このリンクをクリックしてください)。

  • 明快さは複雑さに勝る。

7. 「explicitly」を使って直接的な顧客の言葉を要求する

Monitorが顧客が直接何かを述べた場合にのみトリガーすべきなら、基準に「explicitly」という言葉を含める。これがないと、AIは文脈から意図を推測し、行動が示唆されただけの会話にも一致する可能性がある。

  • 「explicitly」なし:顧客が折り返し電話を要求する — AIは「セキュリティチームに繋げてくれますか?」を折り返し電話の要求と推測する可能性がある。

  • 「explicitly」あり:顧客が明確に折り返し電話を要求する — 顧客が直接「電話をもらえますか?」や「電話してください」と言った場合のみ一致。

ヒント: Test Monitorツールを使って、実際の会話に対して基準を検証し、オンにする前に調整してください。フラグ基準を更新し、結果がMonitorが捉えたい内容を正確に反映するまでテストを繰り返す。


スコアカード基準説明を書くためのベストプラクティス

基本原則から始める:基準は競合する。AIは全リストを見て、各基準に対して最適な一致を1つ選ぶ。あなたの仕事はその選択を明確にすること。

1. 明確で簡潔な名前を使う

  • 名前は短く具体的に。リストを読む人が説明を開かなくても目的がすぐに分かるように。

  • 悪い例:顧客コミュニケーションの問題

  • 良い例:トーン - 無礼または軽視的

2. 包括的な説明を書く

説明は分類の信号の大部分を担う。

  • 属するすべての会話タイプを明示的に説明する。

  • キーワード、一般的な表現、例を含める。

  • エッジケースを考慮し、それらも含める。

  • 良い例と悪い例を明確にする。

説明はAIが実際の表現を認識しやすくするもので、抽象的な定義だけでなく。

3. 基準を明確に区別する

同じスコアカード内の基準は概念的に競合してはいけない。

  • 意味の重複を避ける。

  • 各属性に明確な境界を設ける。

  • 同じ理由で2つの属性が適用可能なら、どちらかを洗練させる。

1つの会話がスコアカード内の複数の基準に当てはまっても問題ない。重要なのは各基準セット内で値が明確に区別できること。

4. 品質を体系的に評価する

分類体系を見直す際、各基準を以下で評価する:

  • 明快さ / 簡潔さ

  • 説明の包括性

  • 基準の区別

  • 重複する基準(あれば)

  • 最終スコア+コメント

この構造化されたレビューにより定義を厳密にし、曖昧さを減らすことができ、分類性能が直接向上する。


よくある質問

フラグ基準はどのくらいの長さが適切ですか?

固定の長さはなく、行動を正確に説明するのに必要な長さが適切です。単純なMonitorなら2〜3文で十分かもしれません。複雑なもの(多段階の失敗パターン検出など)は構造化された番号付き説明が必要かもしれません。詳細を多めに書く方が良いです。

同じスコアカード基準を複数のスコアカードで使えますか?

はい、基準のタイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。ただし、以前の評価スコアは再利用できず、各スコアカードで最初から設定する必要があります。

Monitorフラグ基準とスコアカード基準説明の違いは?

Monitorフラグ基準は会話がMonitorに取り込まれるかどうかを決める、はい/いいえのフィルターです。スコアカード基準説明は、Monitor内の各会話がどのように評価されるかを定義します。Monitorは網、スコアカードは定規のようなものと考えてください。

こちらの回答で解決しましたか?