レバレジーズ データAIブログ

インハウスデータ組織のあたまのなか

点を線に変えるデータサイエンスの論文紹介3選

データ戦略室で室長兼データサイエンティストをしている阪上です。本日は先日、組織のキックオフイベントでお話した内容を紹介したいと思います。

点を追求することによる失敗

 自分は過去に短期的なKPI(ここでは会員登録とします)の改善のために分析を行い、改善するためのマーケティング施策を見つけました。そして、A/Bテストで400%の改善をし、会員登録の率を大幅に改善させました。こんなに恐ろしいくらいにユーザーに反響がある施策があるのかと当時驚くばかりでした。

 しかし、登録した会員からもたらされる売上インパクトが、施策をしない場合よりも悪化してしまうという事態に数ヶ月後に気づくこととなりました。これは短期指標を追い求めることの弊害と言えるでしょう。売上は登録後にかなり遅れて観測されるので、売上の悪化に気づくまでそれなりに時間がかかることも悩ましいところです。

 今回の失敗が起きた要因としては、分析から会員登録を促す発見をして、それを愚直に実行し、会員登録から売上までのプロセスについてリスク周りを十分に考慮できなかったことにあります。 売上が発生する事象は不均衡データでもあり、観測もかなり遅れてなされるので、分析の扱いには注意が必要です。今となっては中間的なKPIを設けることで運用していますが、いかなる時も点(短期指標)の先を見据えた分析や施策が重要となります。

LTVの重要さ

 短期指標の改善のために分析を行いましたが、突き詰めるとやはり顧客生涯価値を振り返ることが重要であると感じられます。もちろん、多くのコンバージョンを得ていくことが企業の成長には不可欠で、まずお客様に登録していただくことも大事です。短期と長期の両方を意識した事業運営をこれからもやっていきたいですね。

 さて本題に入りますが、こんな重要なLTVについて、他の企業では分析においてどのように向き合っているのか深く学んでみたくなりました。そこで、「LTVと機械学習」という切り口で調べ、そこで良いなと思った企業の論文をベースに紹介したいと思います。

機械学習とLTVのトレンド

 かなり以前の研究ですが、Hosanagar et al (2008)ではレコメンドシステムに対する信頼が低い時に関連性の高いアイテムを、高い時に利益率の高いアイテムを推薦すると売上が増加したとされており、信頼度という長期的に積み上げていくものがユーザーの行動に影響を与え、ひいては売上にもつながっていくという研究がされています。レコメンドシステムへの信頼がLTVにつながっていくというのは面白いと思います。間がだいぶ飛びますが、RecSys 2019では、Netflixでのユーザーの解約防止を目的にしたレコメンドの活用が話題になり、強化学習とサブスクリプション継続期間予測という研究がなされました。継続期間が増えるように強化学習していくレコメンドというのは興味深いです。Pei et al (2019)では、ユーザーの行動に対して経済価値を定義し、推薦リストの総経済価値が最大になるように強化学習するという、強化学習に基づく経済価値を重視したレコメンドの研究がなされています。Holtz et al (2020)では、レコメンドの長期視聴時間の変化がもたらす利益最適化に関する研究が行われ、Youtubeレコメンドで利益最適化を行っています。Zhao et al (2020)では、ユーザーの長期体験を最大化するアイテムの推薦をし、合わせて短期収益につながる広告のバランスを強化学習で見つけるという研究がなされています。レコメンドと広告の統合を目指す意欲的な取り組みです。Luo et al (2021)では、強化学習を用いてアイテムのスコアリングを行い、コールドスタート問題を解消するという取り組みがなされています。アイテムの将来的なLTVを予測することでコールドスタート問題を克服しようとしています。Kunpeng et al (2022)では、動画サービス利用ユーザーの支出を深層学習モデルで予測し、それを元にLTVの推定をしています。NeurIPSワークショップのYunpeng et al (2024)では、個々のユーザーのLTVを推定するために分布を自動選択するOptDistモデルが扱われ、より精緻なLTV推定の研究が行われています。Aochuan et al (2025)ではグラフ表現学習でユーザ・アイテム関係をエンコードし、ゲームのユーザーのLTVを推定し売上向上に繋げるという研究がなされています。

 以上から、様々な研究でLTVを最適化するような取り組みがなされており、企業にとって重要なテーマであることが再認識できます。以下では、論文について3つほど掘り下げていきます。

論文1:Pei et al (2019), “Value-aware Recommendation based on Reinforced Profit Maximization in E-commerce Systems”

 こちらは中国のアリババのECサイトでの研究で収益最大化を目的としたもので、XVRベースのレコメンドの強化学習という提案手法が扱われています。アイテムに関するクリック、カートへの追加、購入などの各行動を金銭的利益に換算し、強化学習を行いてランキング戦略を学習しています。オンラインでの評価において27%もの売上向上をもたらしたとされています。

 この研究では、特定の行動Xから購入まで到達する遷移確率を表す「XVR」という概念を導入し、全ての行動から期待利益を計算できるようにしています。この利益を報酬として強化学習でのレコメンデーションの最適化を行っています。

 図にあるようにユーザーの情報(年齢、性別、購買力)やアイテムの情報(CTR、CVR、価格)やコンテキスト(ページID、リクエスト時間)からなる状態を元に、アイテムの順序を決定し、XVRを用いた価値換算値を元に報酬を定義して、その報酬が高まるように強化学習を行っています。

 XVRを用いた価値換算では、あらゆるユーザーの行動に金銭的な価値が付与されます。レコメンドアルゴリズムがつかさどるランキング付けの結果としてユーザー行動に影響が出て、累積報酬に最終的に反映されるという流れです。

 この研究の学びとしては、「クリック→購入」などの間接的なアクションの累積の経済価値を最適化することで、レコメンドを用いた利益の最適化を行えることです。

論文2:Luo et al (2021), “Reinforcement Learning to Optimize Lifetime Value in Cold-Start Recommendation”

 こちらはTaobaoという中国のECサイトの研究で、長期的なアイテム成長の促進を目的とし、RL-LTVフレームワークというアプローチが提案されています。 (図:論文で紹介されたレコメンドのエコシステム)

 図にあるように、ECサイトのアイテムから、過去データからレコメンドシステムを作り、アイテムのスコアを計算し、価格システムを通じて割引を行い、最終的にユーザーにアイテムが表示されるエコシステムになっています。

 現在の観測(アイテムやユーザーの情報)に基づき、将来のLTVの最大化のランキング方法(ポリシー)を探す「Actor」、アイテム自体の過去の軌跡からアイテム自体のLTV(累積報酬)を予測し成熟アイテムの知識を新規アイテムに転移する「Critic」からなる仕組みとなります。予測ではLSTMが使われています。過去の類似アイテムの軌跡から類推することで、新規アイテムのLTVも予測できるようになります。さらに、CTR重視かLTV重視かの重み付けを、LTVの期待値に応じて動的に調整し最終的なレコメンドのランキングにしています。Taobaoのオンラインの実証実験でCTRは8.7%増加、売上18%向上したとされています。

 この論文からの学びとしては、アイテム単位でLTVを計算し長期を重視し、Cold-startなアイテムも類推して推定できる点にあると思いました。加えて、短期と長期の重み付けも良いと思います。

論文3:Lucas et al (2024), “Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective”

 この論文はスウェーデンのSpotifyという音楽配信アプリに関する研究で、長期の視聴習慣形成を目的としており、因果推論の枠組みで有名な「反実仮想」の概念を取り入れたQ関数というアプローチが提案されています。

 推薦が長期的な満足度に貢献する主要なメカニズムは、ユーザーが特定のコンテンツに対する継続的なリスニング習慣(アイテムレベルの習慣)を形成することであると仮定し、短期的なエンゲージメントと長期的な習慣の強度を強化学習かつ因果推論アプローチで予測しています。細かくは記しませんが、この理論の前提となる反実仮想も含め、数々のAssumptionが論文では記されていました。

 論文で紹介されているQ関数は、状態と行動の価値を決める関数とされており、そのアイテムがそもそもクリックされ視聴されるのかどうかという短期的な観点と、60日間でそのアイテムの視聴が習慣化しているかどうかの長期的な観点から最適化を行います。Spotifyにおいて、60日間のリスニング時間(分)を81%増加させたとされています。短期のCTR最適化とは一線を画する取り組みに思われます。

 この論文からの学びとしては、習慣形成により長期利用を増やす仕組みの最適化からのLTV最適化という、ユーザーの行動を長期的に変えることを大事にしている点にあると思います。

まとめ

 ユーザーの行動を価値に換算する研究やユーザーの長期での習慣形成に関する研究は中々興味深く、強化学習でいったいどれくらいLTVに良い影響が出るのか自分も試してみたいなと思いました。また、コールドスタート問題の克服として、将来的に人気が出そうなアイテムを予測することもできると、より良いレコメンドを提供できそうに思いました。

 強化学習は中々カジュアルにビジネスサイドで活かしにくい印象がありましたが、多くのテック系企業では、売上を最適にするような研究を進めているので、かなり進んでいるなと感じます。多くの機械学習は、まずは教師データとして何かの0-1を予測する(いわゆる点での予測)ことが多く、巡りに巡って売上につながっていきますが、点ではなく線を意識した直接的な売上の最適化というのは将来的にチャレンジしてみたいですね。短期の教師データと、長期のLTVの両方を考えるモデリング、わくわくしますね。

参考情報