はじめに
こんにちは!レバレジーズデータ戦略室、データサイエンティストのJacobです。
今回は、弊社の転職支援サービスの改善のための面談分析について書きたいと思います。数多くの求職者のサポートに励んでいる弊社のキャリアアドバイザー(CA)のハイパフォーマーにはどのような特徴があるのかという分析です。様々な仮説がある中で、求職者との面談のデータを分析するとどのような傾向が見られるでしょうか。
分析方法
対象データは700件の面談の文字起こしです。面談の中には、弊社の紹介から具体的な企業提案まで、様々な転職に関する話題が出ます。非構造化データであるため、LLMを通じて分析することが効果的です。今回はGeminiのAPIを使用しました。
以下のアプローチを試してみました。
プロンプト
「この面談の文字起こしからCAを評価してください」のような簡単なプロンプトでも使用できますが、おおざっぱな回答が返ってくるおそれがあります。より精度の高いフィードバックを得るために、過去の面談後のアンケート回答を分析し、どのような観点からCAを評価すればいいかをLLMに要約してもらいました。この文章はCAを評価するプロンプトの中に入れました。
クラスター分析に適したアウトプットを得るために、以下のような構造化アウトプットを使用しました。jsonでもいいのですが、pydanticのモデルを使うとプロンプトの可読性が向上し、コードのメンテナンスもしやすいというメリットがあります。
from pydantic import BaseModel class FeedbackPoint(BaseModel): title: str details: str # モデルのアウトプット class ModelOutputs(BaseModel): positive_feedback: list[FeedbackPoint] # CAの利点 negative_feedback: list[FeedbackPoint] # CAの改善点
クラスター分析
LLMのフィードバックを一つ一つ見るより、全体的な傾向を把握するにはクラスター分析が有効です。利点と改善点についてMultilingual E5というモデルでエンベディングを計算し、UMAPとHDBSCANというアルゴリズムでクラスター分析を行いました。
CAの利点を青い点で可視化すると以下のようになります。二点が近いとそのフィードバックが似ていると考えられます。

いくつかのクラスターが見られます。CAの実績データと組み合わせると、ハイパフォーマーが密集するクラスターが発見できます。例えば、「話しやすい環境を作る」というクラスターに実績のあるCAが多いと、それがハイパフォーマーの特徴の一つと考えられます。簡単な例ですが、より隠れた重要な特徴も発見できます。
まとめ
本分析では、700件の面談データのクラスター分析を行い、キャリアアドバイザーのハイパフォーマーの特徴を特定しました。研修やサービス品質向上に活用できるでしょう。今後さらに発展させることで求職者へのサポート強化につなげていきます。