レバレジーズ データAIブログ

インハウスデータ組織のあたまのなか

面談データが語るサービス改善の新潮流:LLMとクラスター分析で見えてきた転職支援の傾向

はじめに

こんにちは!レバレジーズデータ戦略室、データサイエンティストのJacobです。

今回は、弊社の転職支援サービスの改善のための面談分析について書きたいと思います。数多くの求職者のサポートに励んでいる弊社のキャリアアドバイザー(CA)のハイパフォーマーにはどのような特徴があるのかという分析です。様々な仮説がある中で、求職者との面談のデータを分析するとどのような傾向が見られるでしょうか。

分析方法

対象データは700件の面談の文字起こしです。面談の中には、弊社の紹介から具体的な企業提案まで、様々な転職に関する話題が出ます。非構造化データであるため、LLMを通じて分析することが効果的です。今回はGeminiのAPIを使用しました。

以下のアプローチを試してみました。

  1. 面談ごとにプロンプトを用いて構造化したフィードバックをLLMに書いてもらいました。
  2. フィードバックのクラスター分析を行い、ハイパフォーマーが密集するクラスターを検査しました。

プロンプト

「この面談の文字起こしからCAを評価してください」のような簡単なプロンプトでも使用できますが、おおざっぱな回答が返ってくるおそれがあります。より精度の高いフィードバックを得るために、過去の面談後のアンケート回答を分析し、どのような観点からCAを評価すればいいかをLLMに要約してもらいました。この文章はCAを評価するプロンプトの中に入れました。

クラスター分析に適したアウトプットを得るために、以下のような構造化アウトプットを使用しました。jsonでもいいのですが、pydanticのモデルを使うとプロンプトの可読性が向上し、コードのメンテナンスもしやすいというメリットがあります。

from pydantic import BaseModel


class FeedbackPoint(BaseModel):
   title: str
   details: str


# モデルのアウトプット
class ModelOutputs(BaseModel):
   positive_feedback: list[FeedbackPoint] # CAの利点
   negative_feedback: list[FeedbackPoint] # CAの改善点

クラスター分析

LLMのフィードバックを一つ一つ見るより、全体的な傾向を把握するにはクラスター分析が有効です。利点と改善点についてMultilingual E5というモデルでエンベディングを計算し、UMAPとHDBSCANというアルゴリズムクラスター分析を行いました。

CAの利点を青い点で可視化すると以下のようになります。二点が近いとそのフィードバックが似ていると考えられます。

いくつかのクラスターが見られます。CAの実績データと組み合わせると、ハイパフォーマーが密集するクラスターが発見できます。例えば、「話しやすい環境を作る」というクラスターに実績のあるCAが多いと、それがハイパフォーマーの特徴の一つと考えられます。簡単な例ですが、より隠れた重要な特徴も発見できます。

まとめ

本分析では、700件の面談データのクラスター分析を行い、キャリアアドバイザーのハイパフォーマーの特徴を特定しました。研修やサービス品質向上に活用できるでしょう。今後さらに発展させることで求職者へのサポート強化につなげていきます。