効果的な基準を書くことは、実際の問題を浮き彫りにするMonitorと、ノイズでキューを溢れさせるMonitorを分けるものです。このガイドは、Monitorのフラグ基準とScorecardの属性説明の両方のベストプラクティスをカバーします。Monitorsは現在Fin AI Agentの会話のみを評価します。
注意: MonitorsはPro add-onの一部として利用可能です。
Monitorフラグ基準とスコアカード属性説明の違い
これら2種類の基準は異なる動作をするため、異なる書き方が必要です。
| Monitorフラグ基準 | スコアカード基準の説明 |
目的 | どの会話をレビューするかを決定する | 各会話がどのように評価されるかを定義する |
ロジック | はい/いいえ - 各Monitorは独立して実行される | 競合 - AIは単一の最適な一致を選択する |
主な課題 | 偽陽性と偽陰性を減らす | 基準値間の重複を排除する |
Monitorフラグ基準を書くためのベストプラクティス
Monitorsは独立したはい/いいえチェックとして実行されます。複数のMonitorsが同じ会話にフラグを立てることがあり、それは問題ありません。このため、区別よりも精度が重要です。
1. 推測された意図ではなく、観察可能な行動を記述する
会話に現れるものに焦点を当てる。
避けるべき例:顧客が苛立っている
推奨例:顧客が「これは受け入れられない」「非常に失望している」「これはばかげている」などのフレーズを使う。
AIは感情的な解釈よりも明示的な信号を評価する方が性能が良い。
2. 具体的な例を含める
例は曖昧さを大幅に減らす。
明示的な表現パターンを使う:例、解約する、アカウントを閉じる、データを削除する
例はモデルを実際の言語に結びつける。
3. 明確な除外を追加する
偽陽性を減らすことはMonitorsにとって重要。
例:顧客が汚い言葉を使う。除外:damnやcrapのような軽い言葉。Monitorをトリガーすべきでない場合は、はっきりとそう記述する。
4. 定量的な閾値を使う
曖昧な表現は避ける。
悪い例:Finが短い返答をする。
良い例:Finの返答が50語未満である。
具体的な閾値は一貫性を向上させる。
5. 複数ステップのロジックは番号付き基準に分ける
Monitorが順序やパターンに依存する場合は、明確に構造化する:
顧客が苛立ちを表現する。
Finが感情を認識せずに応答する。
顧客が不満を繰り返す。
これによりロジックが決定的になり、評価が容易になる。
6. シンプルに保つ
ルールが単純なら、複雑にしすぎない。
例:Finが次のステップを提案する(例:キャッシュをクリアしてください、ログアウトして再ログインしてください、このリンクをクリックしてください)。
明快さは複雑さに勝る。
7. 「explicitly」を使って直接的な顧客の言葉を要求する
Monitorが顧客が直接何かを述べた場合にのみトリガーすべきなら、基準に「explicitly」という言葉を含める。これがないと、AIは文脈から意図を推測し、行動が示唆されただけの会話にも一致する可能性がある。
「explicitly」なし:顧客が折り返し電話を要求する — AIは「セキュリティチームに繋げてくれますか?」を折り返し電話の要求と推測する可能性がある。
「explicitly」あり:顧客が明確に折り返し電話を要求する — 顧客が直接「電話をもらえますか?」や「電話してください」と言った場合のみ一致。
ヒント: Test Monitorツールを使って、実際の会話に対して基準を検証し、オンにする前に調整してください。フラグ基準を更新し、結果がMonitorが捉えたい内容を正確に反映するまでテストを繰り返す。
スコアカード基準説明を書くためのベストプラクティス
基本原則から始める:基準は競合する。AIは全リストを見て、各基準に対して最適な一致を1つ選ぶ。あなたの仕事はその選択を明確にすること。
1. 明確で簡潔な名前を使う
名前は短く具体的に。リストを読む人が説明を開かなくても目的がすぐに分かるように。
悪い例:顧客コミュニケーションの問題
良い例:トーン - 無礼または軽視的
2. 包括的な説明を書く
説明は分類の信号の大部分を担う。
属するすべての会話タイプを明示的に説明する。
キーワード、一般的な表現、例を含める。
エッジケースを考慮し、それらも含める。
良い例と悪い例を明確にする。
説明はAIが実際の表現を認識しやすくするもので、抽象的な定義だけでなく。
3. 基準を明確に区別する
同じスコアカード内の基準は概念的に競合してはいけない。
意味の重複を避ける。
各属性に明確な境界を設ける。
同じ理由で2つの属性が適用可能なら、どちらかを洗練させる。
1つの会話がスコアカード内の複数の基準に当てはまっても問題ない。重要なのは各基準セット内で値が明確に区別できること。
4. 品質を体系的に評価する
分類体系を見直す際、各基準を以下で評価する:
明快さ / 簡潔さ
説明の包括性
基準の区別
重複する基準(あれば)
最終スコア+コメント
この構造化されたレビューにより定義を厳密にし、曖昧さを減らすことができ、分類性能が直接向上する。
よくある質問
フラグ基準はどのくらいの長さが適切ですか?
フラグ基準はどのくらいの長さが適切ですか?
固定の長さはなく、行動を正確に説明するのに必要な長さが適切です。単純なMonitorなら2〜3文で十分かもしれません。複雑なもの(多段階の失敗パターン検出など)は構造化された番号付き説明が必要かもしれません。詳細を多めに書く方が良いです。
同じスコアカード基準を複数のスコアカードで使えますか?
同じスコアカード基準を複数のスコアカードで使えますか?
はい、基準のタイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。ただし、以前の評価スコアは再利用できず、各スコアカードで最初から設定する必要があります。
Monitorフラグ基準とスコアカード基準説明の違いは?
Monitorフラグ基準とスコアカード基準説明の違いは?
Monitorフラグ基準は会話がMonitorに取り込まれるかどうかを決める、はい/いいえのフィルターです。スコアカード基準説明は、Monitor内の各会話がどのように評価されるかを定義します。Monitorは網、スコアカードは定規のようなものと考えてください。
