メインコンテンツにスキップ

スコアカードの作成と設定

会話を評価し、高品質基準を維持するためのスコアカードの作成とカスタマイズ方法を学びましょう。

カスタムスコアカードは、精度、トーン、ポリシー遵守など、重要な基準を明確に設定することで、チームにとっての「良い状態」を定義します。スコアカードはMonitorsと連携して機能します。Monitorはレビュー対象の会話を定義し、スコアカードは各会話の評価方法を定義します。

異なるMonitorsに対して複数のスコアカードを持つことができます。Monitorの設定画面から、どのスコアカードをMonitorに関連付けるか選択してください。

注意: スコアカードはPro add-onの一部として利用可能です。


スコアカードを作成するには

Analyze > Monitorsに移動し、Scorecardsをクリックします。既成のFin Quality Scorecardを使用するか、+ New scorecardをクリックして独自のスコアカードを作成できます。


新しいスコアカード基準を作成する

まずスコアカード基準を追加します。最初にNew scorecard > + Criteria > Create newをクリックしてください。

新しい属性を作成する際は、以下の手順に従ってください。

1. 基準に名前を付ける

基準には短く明確な名前を付けてください(例:SentimentやAnswer accuracy)。この名前はレポートに表示され、参照用に使用されます。

2. 評価対象の説明を記入する

基準が何をチェックし、どのように評価されるかを明確に説明してください。この説明はAIが基準を評価する際のプロンプトとなり、正確であればあるほどAIは会話を正確に評価できます。また、人間のレビュアーが一貫して同じ基準を適用するのにも役立ちます。

ヒント: 効果的な説明文の作成方法については、MonitorおよびScorecard基準の効果的な書き方をご覧ください。

3. 基準の評価方法を選択する

基準をAIによる自動評価にするか、人間のレビュアーによる手動評価にするかを決定します。同じスコアカード内でAI評価と人間評価を混在させることも可能です。

注意: スコアカード基準のタイトルと説明は再利用可能です。一度作成した属性は複数のスコアカードに追加できます。過去の評価スコアは再利用できず、各スコアカードで新たに設定する必要があります。

4. 評価オプションを定義する

レビュアーやAIが選択できる評価値を追加します(例:Good、Okay、Poor)。各属性には最低2つの評価オプションが必要です。各評価オプションについて、以下を行います。

  • 評価の名前(短く明確に)を付ける

  • 選択される条件を説明する

  • スコアを割り当てる(例:100%、50%、0%)か、Not scoredとしてマークする

割り当てたスコアは、その評価が全体のレビュー得点にどのように寄与するかを決定します。

4b. 評価理由を定義する(任意)

各評価オプションに対して、特定のスコアが付けられた理由を説明する評価理由のリストを定義できます。評価理由はレビュアーやAIがスコアを一貫して分類するのに役立ち、会話全体のパターンを特定しやすくします。

AIが基準を評価する際、該当する場合は最も関連性の高い事前定義された理由を自動的に選択します。該当する理由がない場合、AIは明確な説明を生成し、すべてのスコアに意味のある文脈を提供します。

5. 自動レビューを有効にする(任意)

Auto-review scorecardをオンに切り替えることで、スコアカードのQAプロセス全体を自動化できます。

有効にすると:

  • スコアカード内のすべての基準がAIで評価される場合、手動レビューのステップは完全にスキップされます。

  • チームメンバーは、もし不一致を見つけた場合、AIのスコアを手動で上書きすることができます。

ヒント: 自動レビューはすべての基準がAI評価の場合に最も効果的です。人間の評価が必要な基準がある場合、その会話は未レビューキューに残ります。


スコアカードを設定する

スコアカード基準を追加した後、全体のレビュー結果にどのように影響するかを設定します。

スコアカード基準を重要としてマークする

基準をCriticalとしてマークできます。重要な基準が不合格評価を受けた場合、レビュー全体が不合格になります:

  • 全体のレビュー得点が0%になります。

  • これはすべての重み付けを上書きします。

  • Not scoredの評価は基準を全体得点から除外し、不合格を引き起こしません。

重要な基準は、コンプライアンス要件、安全性やポリシー遵守、エスカレーション対応などの譲れない基準に役立ちます。

スコアカード基準の重み付け

各基準には相対的重要度を定義するweightを割り当てることができます。

  • 重みは0から100の整数でなければなりません。

  • 重みが高いほど、その基準が全体のレビュー得点に与える影響が大きくなります。

重みは重要なポイントを反映するために使用します。例えば、正確さが速度より重要な場合は、EfficiencyよりAccuracyに高い重みを付けます。

注意:

  • 重みは互いに対して相対的であり、100のスケールに固定されているわけではありません。合計は任意の数値になり得ます。重要なのは各基準が占める割合です。例えば、合計50のうち25の重みを持つ基準は、合計100のうち50の重みを持つ基準と同じ寄与をします。

  • スコアカードUIから「レビュー得点に含める」オプションは削除されました。

合格閾値の追加

レビューが合格と見なされるために必要な最低全体得点であるpass thresholdを定義できます。例えば、合格閾値が80%の場合、80%未満の得点は不合格とマークされます。

これは重み付けスコアリング後に評価され、重要な基準がすでにレビューに不合格を与えていない場合に適用されます。


全体のレビュー得点の仕組み

  1. 各基準は定義された評価オプションを使って評価されます。

  2. 評価は割り当てられたスコアに寄与します(Not scoredの場合は除外されます)。

  3. すべての基準は割り当てられた重みを使って組み合わされます。

  4. 重要な基準が不合格評価を受けた場合、全体のレビュー得点は0%になります。

  5. 最終得点は合格閾値と比較され、レビューが合格か不合格かが決まります。

3つの基準が最終得点にどのように組み合わされるかの例を示します:

基準

選択された評価

評価スコア

重み

Accuracy

Good

100%

60

Tone

Okay

50%

30

Efficiency

Good

100%

10

全体スコア = (100x60 + 50x30 + 100x10) / (60+30+10) = 85%


スコアの表示場所

レビューが完了すると、スコアは会話リストと各会話内の両方で確認できます。

Monitorでは、会話リストに全体のレビュー得点(パーセンテージまたはFail)と個々の基準評価が列として表示されます。これにより、会話全体のパフォーマンスを簡単に確認し、不合格や低スコアを見つけやすくなります。

会話を開いてScoreタブに移動すると、割り当てられたスコアカード、レビュー状況、全体スコア、および各基準の選択された評価が表示されます。このビューは最終スコアの決定方法を正確に示します。FinがAIを使って基準を評価する場合、Scoreタブの評価にカーソルを合わせると、選択された評価、基準の説明、Finの評価理由がツールチップで一箇所に表示されます。


よくある質問

スコアカード基準を複数のスコアカードで再利用できますか?

はい、基準のタイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。ただし、過去の評価スコアは再利用できず、各スコアカードで新たに設定する必要があります。

スコアカードをMonitorに関連付けなかった場合はどうなりますか?

Monitorは基準に合致する会話をフラグしますが、スコアリングは行われません。レビュアーはスコアカード基準を記入せずにフラグされた会話を確認します。評価を有効にするには、Monitor設定時にスコアカードを関連付けてください。

同じスコアカード内でAI評価と手動評価の基準を混在させることはできますか?

はい。基準ごとにAIまたは人間のレビュアーが評価を担当するか選択できます。Auto-reviewが有効で、手動評価が必要な基準がある場合、その会話は未レビューキューに残ります。

重要な基準とは何ですか?

重要な基準が不合格評価を受けた場合、他の基準の評価に関係なく全体のレビュー得点は0%になります。これはコンプライアンス、安全性、エスカレーション対応など、単一の不合格がすべてを上書きすべき譲れない基準に役立ちます。

こちらの回答で解決しましたか?