Leverages データ戦略ブログ

インハウスデータ組織のあたまのなか

経済学バックグラウンドのマネジャーが考えるデータ戦略室のR&Dポリシー

データ戦略室の室長をしている阪上です。
先日、MITの経済学者であるアセモグル教授がノーベル経済学賞を受賞しました。経済の成長に繋がる要因を様々な観点から理論とデータで示していったのが功績だと思うのですが、マクロ経済学をバックグラウンドに持つ私としては非常に嬉しい出来事でした。

データ戦略室では日々のデータ分析に限らず、R&Dも重視しており、ここ数年でやってきたこととしては、

  • 非構造化データの構造化
  • 音声文字起こしとそれを用いた分析
  • 求人と人材のマッチングのためのレコメンドアルゴリズム開発
  • 営業の生産性に関する最適点の探索

などがあります。

今回はデータ戦略室におけるR&Dのポリシーを共有したいと思います。
しかしながら、私が独自で進めている側面もかなりあるので、私のR&Dポリシーとも言えるでしょう。
私のR&Dポリシーは自分のルーツである経済学を学ぶ過程で得られたものでもあります。まずは私自身のポリシーを共有し、経済学のどのような側面からそこに至ったのかを説明していきます。

私のR&Dポリシーは以下の3つです。

  • ポリシー1:アイデアは毎日考える
  • ポリシー2:自社の今あるデータでできること、これから得られるであろうデータを想定して進める
  • ポリシー3:勝手に進めてプロトタイプを作る

ポリシー1:アイデアは毎日考える

当たり前ではありますが、私は分析に関するアイデアをほぼ毎日考えており、閃いたらSlackの個人チャンネルやスプレッドシートに残しています。アイデアを閃くためには、データサイエンスと直接関係のない本(戦略やマーケティング関連の本)を読んだり、色々な組織の資料に目を通したりすることが重要だと考えています。ページをめくるたびにアイデアをメモしていくと中々読書が先に進まないことがあります。
もちろんその前提となるのはデータサイエンスの知識とOSSのライブラリで何ができるかを知っておく必要がありますので、日々専門書でのインプットは欠かせないのは言うまでもありません。
データサイエンスと直接関係あるところで言うと、RecSysやKDDなどの国際学会、日本だと言語処理学会人工知能学会の論文が参考になります。ただしビジネス的にちょうどそのまま使えるようなものは限られているのでアイデアの種として目を通すようにしています。

さて、経済学をあまりご存知ではない方はアイデアと経済学についてピンとこないはずです。ここで、経済学が如何にアイデアによって支えられているのかを紹介したいと思います。

  • 事例1:物理でお馴染みの微分方程式マクロ経済学への適用
  • 事例2:数学の定理を利用したゲーム理論、オークション理論
  • 事例3:政治や社会システムを経済理論に考慮した研究

事例1はSargent(1975)の”Rational Expectations and the Optimal Monetary Instrument and Rule”です。数学的な根拠が十分でなかったマクロ経済学に物理学で常套手段である微分方程式やベルマン方程式を経済の発展に関するモデルに適用したもので、「違う分野からアイデアを持ってくる」という観点で画期的だと思います。金融政策の研究で使われている動学的確率的一般均衡モデルはまだノーベル経済学賞が出てないと思いますが、マクロ経済の変動を数学的に示すという取り組みはワクワクしてしまいます。

事例2はNash(1950)の”Equilibrium Points in N-Person Games”です。戦争や政治・外交の意思決定などの均衡を数学的に証明するというもので、ナッシュ均衡に関するものです。ナッシュ均衡を証明するために、ブラウワーの不動点定理が用いられます。幾何学などに使われていた不動点定理をゲーム理論という分野に適用したのは面白いですし、数学的に均衡が存在することが示されているというのは学問を進める上で非常に頼もしいです。
ただ、ナッシュは数学者としての業績が多いので、正確にはナッシュの発見を元に様々なゲーム理論の研究がなされたという流れにはなりますが。
しかしながら、無味乾燥な幾何学が政治の意思決定の均衡を示すというのはロマンに溢れていると思います。オークションに関してもナッシュ均衡、ひいては不動点定理などの幾何学が使われていますし、人間の欲望のぶつかり合いであるオークションを科学できるというのは非常に面白いです。余談になりますが、ハル・ヴァリアンという著名な経済学者が関与していることからGoogle広告の入札金額に関してもオークション理論が考慮されているはずです。

事例3はAcemoglu(2001)の”The Colonial Origins of Comparative Development: An Empirical Investigation”です。経済成長の説明をこれまでは労働者・資本ばかりで説明しようとしてきた経済学に対して、社会制度や政治の要素を取り入れて理論を構築し、それらの実証研究も行ったというアセモグルの功績の一つです。旧態依然とした説明変数に対して、新しい観点を取り入れて様々な国の経済成長を説明付けるというのをやってのけたというのは素晴らしいことです。常に新しい説明変数を虎視眈々と見つけていくのは我々データサイエンティストの責務だと思うので、これまでにない特徴量を見つけていきたいですね。

(横軸は収奪に対しての保護の度合い、縦軸は一人当たりGDPで、収奪的な制度の国は一人当たりGDPが低い傾向がある(The Colonial Origins of Comparative Development: An Empirical Investigationより参照))

ポリシー2:自社の今あるデータでできること、これから得られるであろうデータを想定して進める

R&Dとはいえ、レバレジーズの成長の延長線上になさそうな種類のデータを前提としたアルゴリズムの開発には時間をかけない方針をとっています。そのため、画像解析・動画解析・強化学習に関してのPoCはほとんどありません。
それはある意味で保守的でもあると思いますが、ビジネス的にメイクセンスなものを行いたいという制約がどうしてもあるので、大きな問題だとは考えていません。

基本的には自社で持っている様々なデータ(音声・動画、書類、求人情報、RDB)をベースに何ができるかを考えていきますが、自社で持っているデータが欠損している場合、外部からクローリングしたデータを使ったり、Google広告のAPIでその企業名の月間検索数を集めたりして、あの手この手で特徴量を用意します。最近だと、LLMを用いた構造化データの生成などにチャレンジしています。

限られたデータの中でできることを考えると言うのはR&Dとして面白みに欠くかもしてませんが、経済学の世界では十分にエキサイティングなことだと思います。

  • 事例1:学校の力と出世のしやすさを説明付ける学生運動のデータ
  • 事例2:賃金を説明付ける、くじ引き徴兵のデータ

事例1はKawaguchi & Ma (2008)の”The causal effect of graduating from a top university on promotion: Evidence from the University of Tokyo's 1969 admission freeze”です。東京大学の卒業が出世のしやすさに影響を与えるのかを研究すると言うもので、交絡しないようなデータでそれを示すことが難しい中、研究者は「学生運動により東京大学の入試が中止になった年に、一橋や京都大学に入学した人」を学力的に東京大学に近いが、別の学校に行かざるを得なかった人たちとして、その人たちの出世のしやすさを研究しました。余談ですが、その当時、私の親戚が大学生をしており、高校における優秀層が本当なら入学できるものの、東京大学にいけない人が大阪大学に入るケースなどで玉突き的に行きたい学校にいけなかったことがありました。その圧倒的な社会への影響からいい説明変数だなと実感が持てます。

事例2はAngrist(1990)の”Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records”です。戦争に参加することで労働者の賃金が上がるのかどうかを説明付ける研究において交絡しないようなデータを得るために、ベトナム戦争でくじ引きによる徴兵が行われたことに着目し、それを説明変数に入れたと言うものです。

これらの事例は滅多に思いつくことができるものではないですが、データサイエンティストとして、見つけたい憧れの説明変数として常に意識しています。そのため、社内にこのような説明変数が転がっていないかを考えることもしています。

ポリシー3:勝手に進めてプロトタイプを作る

私は誰に言われるでもなく勝手にデータサイエンス系のツールのプロトタイプを作って社員に意見をもらいます。
最近は便利な世の中で、PythonSQLを書きさえすればLambdaやAPI Gatewayを使って簡単なツール開発をデータサイエンティストがスタンドアロンで行えます。
イデアだけを人にシェアしても、実物がないとあまり良い反応はもらえないもので、素早くプロトタイプを作ることを私の中での定石としています。

基本的に、経済学は実験ができないですし、データもあるものでやるしかないです。やることと言ったら数式を書き殴ってプログラムを書いてコンピュータでのシミュレーションをするくらいです。何もないからこそ、フットワーク軽くPoCを回していけるのかなと思うことがあります。研究室の先輩もJavaで金融政策のシミュレーションをサクッと行っていましたし、私もMATLABを使って動学的確率的一般均衡モデルをおもちゃのようにいじりながら色々試していました。これに関しては経済学に限らずだと思いますが、フットワーク軽くPoCを回していく学問の出身者はレバレジーズと相性がいいかもしれません。

また、行動経済学の分野やミクロ計量経済学の分野では、相手に情報を提示することで人々の行動や意思決定は大きく変わります。選択肢を増やしただけでも変わったりします。プロスペクト理論(Kahneman and Tversk(1979), ”Prospect Theory: An Analysis of Decision under Risk”)などはリスクが本当は高いのに低く見積もったりする人の傾向を扱いますが、ビジネスにおいてもまさにそうで、すごく可能性のある施策に対してそのポテンシャルを低く見る人もいると思います。そのような場合、プロトタイプを見せて相手の認知を変えると言うのが重要だと思います。


(横軸は提示した確率、縦軸は主観的な確率で、提示した確率が高くても人は低く見積もる傾向がある。逆に、滅多に起きないことに対して高く見積もる傾向もある。Kahneman and Tversk(1979)を参照)

以上、データ戦略室のR&Dポリシーを簡単に説明しましたが、書いてみると当たり前のことしか書いてない気がしました。しかしながら、日々の積み重ねがものを言う領域とも思っているので、ポリシー自体はシンプルながら中々思いつけない発見をしていけたらいいですね。