レバレジーズ データAIブログ

インハウスデータ組織のあたまのなか

「精度何%ならリリースOK?」運用開始前に定める、納得感のあるLLM評価基準の作り方

こんにちは。データアナリティクスグループの丸山です。

現在、私たちのチームでは求職者の方々により納得感のある仕事探しを体験していただくため、レコメンドエンジンに「LLMを用いた推薦理由の説明」を付加するプロジェクトに取り組んでいます。
このような推薦理由の説明はTikTokなど転職支援サービス以外でも導入されており、サービスのKPIにポジティブな影響を与えるケースも多いことが知られています。

さて、LLMの生成テキストをプロダクトに組み込む際、避けて通れないのが「その説明は本当に妥当なのか?」という評価の問題です。特に、運用データがない段階ではLLM as a judgeなどで算出した指標がビジネスのKPIとどのように結びつくか判断することが難しいケースがあると思います。本記事では、このようなケースにおいて「ビジネス上の成果を担保するために、どの程度の精度があれば実運用に踏み切れるか」という評価閾値の設定アプローチについて詳しく解説します。

1. 評価の全体像:2つのチェックポイント

生成された説明文の妥当性を人手で全件チェックするのは、膨大な工数がかかるため現実的ではありません。そこで私たちはLLM as a judge(LLMによる自動評価)を採用しています 。
この運用にあたっては、以下の2つの観点で評価を行っています。

① LLM評価モデルの妥当性(メタ評価)

LLM as a judgeのプロンプトが正しく機能しているかを確認します。少数のデータに対して人間がラベル付けを行い、LLMの評価結果との相関係数を算出します。この相関が一定以上である場合に、評価モデルとして信頼できると判断しています 。 なお、人間が付与したラベルからLLM評価モデルの評価のぶれを軽減する手法として、Prediction-Powered Inferenceという論文が発表されています。
今回の取り組みで上記の手法も用いておりますが、内容が煩雑になるため本記事では詳細を割愛します。

② 推薦理由説明文の妥当性(精度評価)

信頼できると判断された評価モデル(①)を用いて、生成された説明文の事実性(入力されている求職者情報・求人情報に合致した説明がされているか)の正解率を測定します。この正解率が、事前に定めた閾値を上回る場合にリリースへと進みます。

以降では、②の精度評価において正解率の閾値をどのように決めるべきかに焦点を当てて議論を進めていきます。

2. ビジネス指標から逆算する閾値の設定

「LLMのプロンプトの正解率が何%以上ならリリースして良いのか」という問いに対し、私たちは求人への応募率への影響から逆算するロジックを構築しました。

変数の定義

まず、以下の変数を定義します。

変数 説明
q 説明文がない状態でのレコメンドにおける応募率
\rho 説明文が事実に基づき適切である場合に、期待できる追加の応募率増加幅
a LLMによる説明文生成の正解率

意思決定のための状況整理

次に、説明文を導入した際のユーザー行動の変化を以下の表のように整理します。

説明なしで応募する
(確率 q
説明なしで応募しない
(確率 1-q
説明が「事実」である
(確率 a
現状維持
(応募する)
【ポジティブな影響】 新たに応募する
(増加幅 \rho
説明が「事実でない
(確率 1-a
【ネガティブな影響】 応募をやめる 現状維持(応募しない)

この表から、応募率に影響を与える要素は以下の2点に集約されます。

1. ポジティブな影響:

説明が正しく(a)、本来応募しなかった人(1-q)が、説明に納得して応募するケース。
この場合の応募率の増加見込みは、\rho a (1 - q)と表せます。
係数 \rho がかけられているのは「説明が正しかった場合に、本来応募しなかった人全員が応募に転じる」という状況が想定しづらいためです。そのため、「理由の説明に興味を惹かれて求人に応募する」という行動変容が発生する人の割合を \rho とし、それをa (1 - q) に乗じています。

2. ネガティブな影響:

説明が間違っており(1-a)、本来応募するはずだった人(q)が、不信感を抱いて応募をやめるケース。
この場合の応募率の減少幅は (1 - a) q と表せます。
ポジティブな影響を考慮する際は係数 \rho を導入しましたが、「説明が誤っている求人の応募をやめる」という現象は全員に発生すると仮定して減少幅を算出しています。
少し強力な仮定ですが、おかしな文章が表示されていると求職者のモチベーションは損なわれると考えられるため、一定の妥当性はあると考えています。
また、KPIに与えるリスクを事前に回避するために、ネガティブ影響を大きく見積もるという保守的な仮定をしている側面もあります。

正解率の閾値の算出

以上の整理を行うと、今回のLLMによる推薦理由の説明文生成を導入する判断基準は、ポジティブな影響がネガティブな影響を上回ること、つまり全体の応募率増加見込みが0より大きくなることだと言えます(厳密にはLLMのプロンプトの検証工数やプロダクトに組み込む際の実装工数も加味して、費用対効果が見合うかの比較が必要ですが、ここでは簡単のために無視して考えます)。 この条件を数式で表すと以下のように表現できます。

\rho a (1 - q) - (1 - a) q > 0

この不等式を、算出すべき変数である正解率 a について解くと、実運用に必要な精度の基準値(閾値)が導き出されます。

a > \frac{q}{\rho (1 - q) + q}

なお、以上のロジックで算出された正解率の閾値について、定義した変数との関係は以下のように説明できます。

  • 現状の応募率 q が高い場合:不適切な説明による損失リスクが大きいため、要求される正解率 a は高くなります。
  • 説明による改善見込み \rho が大きい場合:多少のミスがあっても全体としてプラスになるため、正解率 a は小さくても許容されやすくなります

3. 数値の推定と運用

この数式を運用する上で鍵となるのが \rho (適切な説明による増加幅)の見積もりです。

現在は、前述したLLM as a judgeの妥当性を検証する際に人間のチェックが必要になるので、同じタイミングで「説明によって推薦結果に納得できるか」といったアンケートを取得しています。このアンケート結果をもとに \rho について仮置きの数値を設定しています。

また、既に同様の機能がリリースされていて「LLMのプロンプトを改善したい」という状況の場合は、現行機能におけるKPIの改善幅から \rho を算出するアプローチも考えられます(このアプローチを取る際は、推薦理由の説明文の有無でKPIを比較するようなABテストが実施されている状態が理想的です)。

まとめ

今回はLLM評価における精度評価基準の策定について説明をしてきました。
LLMの評価において「なんとなく高ければ良い」という基準から脱却し、ビジネスKPIと紐づいた閾値を設定することで、自信を持ってリリースの判断を下せるようになります。

私たちは今後も、こうしたデータ分析的アプローチをLLMのプロダクト実装に組み込み、より価値のある体験を提供していきたいと考えています。