効果的な基準を書くことは、実際の問題を浮き彫りにするMonitorと、ノイズでキューを溢れさせるMonitorを分けるものです。このガイドは、Monitorのフラグ基準とScorecardの属性説明の両方のベストプラクティスをカバーします。Monitorsは現在Fin AI Agentの会話のみを評価します。

注意: MonitorsはPro add-onの一部として利用可能です。

Monitorフラグ基準とスコアカード属性説明の違い

これら2種類の基準は異なる動作をするため、異なる書き方が必要です。

	Monitorフラグ基準	スコアカード基準の説明
目的	どの会話をレビューするかを決定する	各会話がどのように評価されるかを定義する
ロジック	はい/いいえ - 各Monitorは独立して実行される	競合 - AIは単一の最適な一致を選択する
主な課題	偽陽性と偽陰性を減らす	基準値間の重複を排除する

Monitorフラグ基準を書くためのベストプラクティス

Monitorsは独立したはい/いいえチェックとして実行されます。複数のMonitorsが同じ会話にフラグを立てることがあり、それは問題ありません。このため、区別よりも精度が重要です。

1. 推測された意図ではなく、観察可能な行動を記述する

会話に現れるものに焦点を当てる。
避けるべき例：顧客が苛立っている
推奨例：顧客が「これは受け入れられない」「非常に失望している」「これはばかげている」などのフレーズを使う。

AIは感情的な解釈よりも明示的な信号を評価する方が性能が良い。

2. 具体的な例を含める

例は曖昧さを大幅に減らす。
明示的な表現パターンを使う：例、解約する、アカウントを閉じる、データを削除する
例はモデルを実際の言語に結びつける。

3. 明確な除外を追加する

偽陽性を減らすことはMonitorsにとって重要。

例：顧客が汚い言葉を使う。除外：damnやcrapのような軽い言葉。Monitorをトリガーすべきでない場合は、はっきりとそう記述する。

4. 定量的な閾値を使う

曖昧な表現は避ける。
悪い例：Finが短い返答をする。
良い例：Finの返答が50語未満である。
具体的な閾値は一貫性を向上させる。

5. 複数ステップのロジックは番号付き基準に分ける

Monitorが順序やパターンに依存する場合は、明確に構造化する：

顧客が苛立ちを表現する。
Finが感情を認識せずに応答する。
顧客が不満を繰り返す。

これによりロジックが決定的になり、評価が容易になる。

6. シンプルに保つ

ルールが単純なら、複雑にしすぎない。
例：Finが次のステップを提案する（例：キャッシュをクリアしてください、ログアウトして再ログインしてください、このリンクをクリックしてください）。
明快さは複雑さに勝る。

7. 「explicitly」を使って直接的な顧客の言葉を要求する

Monitorが顧客が直接何かを述べた場合にのみトリガーすべきなら、基準に「explicitly」という言葉を含める。これがないと、AIは文脈から意図を推測し、行動が示唆されただけの会話にも一致する可能性がある。

「explicitly」なし：顧客が折り返し電話を要求する — AIは「セキュリティチームに繋げてくれますか？」を折り返し電話の要求と推測する可能性がある。
「explicitly」あり：顧客が明確に折り返し電話を要求する — 顧客が直接「電話をもらえますか？」や「電話してください」と言った場合のみ一致。

ヒント: Test Monitorツールを使って、実際の会話に対して基準を検証し、オンにする前に調整してください。フラグ基準を更新し、結果がMonitorが捉えたい内容を正確に反映するまでテストを繰り返す。

スコアカード基準説明を書くためのベストプラクティス

基本原則から始める：基準は競合する。AIは全リストを見て、各基準に対して最適な一致を1つ選ぶ。あなたの仕事はその選択を明確にすること。

1. 明確で簡潔な名前を使う

名前は短く具体的に。リストを読む人が説明を開かなくても目的がすぐに分かるように。
悪い例：顧客コミュニケーションの問題
良い例：トーン - 無礼または軽視的

2. 包括的な説明を書く

説明は分類の信号の大部分を担う。

属するすべての会話タイプを明示的に説明する。
キーワード、一般的な表現、例を含める。
エッジケースを考慮し、それらも含める。
良い例と悪い例を明確にする。

説明はAIが実際の表現を認識しやすくするもので、抽象的な定義だけでなく。

3. 基準を明確に区別する

同じスコアカード内の基準は概念的に競合してはいけない。

意味の重複を避ける。
各属性に明確な境界を設ける。
同じ理由で2つの属性が適用可能なら、どちらかを洗練させる。

1つの会話がスコアカード内の複数の基準に当てはまっても問題ない。重要なのは各基準セット内で値が明確に区別できること。

4. 品質を体系的に評価する

分類体系を見直す際、各基準を以下で評価する：

明快さ / 簡潔さ
説明の包括性
基準の区別
重複する基準（あれば）
最終スコア＋コメント

この構造化されたレビューにより定義を厳密にし、曖昧さを減らすことができ、分類性能が直接向上する。

よくある質問

フラグ基準はどのくらいの長さが適切ですか？

固定の長さはなく、行動を正確に説明するのに必要な長さが適切です。単純なMonitorなら2〜3文で十分かもしれません。複雑なもの（多段階の失敗パターン検出など）は構造化された番号付き説明が必要かもしれません。詳細を多めに書く方が良いです。

同じスコアカード基準を複数のスコアカードで使えますか？

はい、基準のタイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。ただし、以前の評価スコアは再利用できず、各スコアカードで最初から設定する必要があります。

Monitorフラグ基準とスコアカード基準説明の違いは？

Monitorフラグ基準は会話がMonitorに取り込まれるかどうかを決める、はい/いいえのフィルターです。スコアカード基準説明は、Monitor内の各会話がどのように評価されるかを定義します。Monitorは網、スコアカードは定規のようなものと考えてください。

効果的なMonitor＆Scorecard基準の書き方