Leverages データ戦略ブログ

インハウスデータ組織のあたまのなか

データサイエンスグループで行っている論文輪読会について

はじめに

レバレジーズのデータ戦略室で室長をしている阪上です。専門性向上を目的として、データサイエンスに関する論文輪読会を行っています。5ヶ月続けてみて色々と学びがあったので、簡単にこれまで読んだ論文の中で興味深いものを紹介しようと思います。

論文輪読会とは

週に1回30分の持ち回りで仕事で役に立ちそうなデータサイエンス系の論文を紹介するという取り組みで、専門性を向上させることを目的にしています。 通常の業務もあることから、各人の負担になり過ぎないように論文の概要を数分程度で述べ、特別に資料を作成するなどを想定しないものとして進めています。論文紹介のあとは、皆でその論文で扱われている手法に関して議論をします。主に半分以上の時間は議論に使われています。

以下のようにスプレッドシートに気になる論文を貼り付け、コメントを記した上で報告者がその論文の面白いポイントを述べるような形式で進めています。

今回は面白かった論文を何件かピックアップして紹介していきます。

面白かった論文1:自然言語処理におけるデータ拡張による性能改善への影響分析

出典:https://www.jstage.jst.go.jp/article/pjsai/JSAI2022/0/JSAI2022_1K1GS604/_pdf/-char/ja

画像系のデータではしばしば行われる、データ拡張について、自然言語処理においてそれらのアプローチが有効なのかを確かめた論文です。 論文では解くべきタスクやデータサイズによってはデータ拡張が自然言語処理領域でも重要であることが示されています。

(引用:沖村ら(2022), ”自然言語処理におけるデータ拡張による性能改善への影響分析”, 第36回人工知能学会, p3) 一般的な事業会社のように扱えるコーパスなどに量的な制約がある場合、このようにデータ拡張の可能性が示されると、分析の選択肢が広がって非常に良いです。

面白かった論文2:テキスト情報を用いた表構造の修正

出典:https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/Q2-14.pdf

文献の中にセル結合が含まれる表が入っている場合に、表データをうまく抽出する技術についての論文です。OCRといったレガシーな手法やResnet50やEfficientNetB0などの深層学習手法を用いたアプローチで、セル結合が起きている異常な状態を捉えるような特徴量の作り方について色々と考えさせられることがありました。レバレジーズでも非構造化データと向き合うことはそれなりにあるので、このような非構造化データに対するアプローチを知れるのは非常に勉強になりました。

面白かった論文3:多層ニューラルネットワークを用いたマルチタスク学習による顧客購買行動予測

出典:https://www.it.mgmt.waseda.ac.jp/results/papers/IPSJ-JNL6306001.pdf

顧客の離脱予測と顧客生涯価値(CLTV)を機械学習モデルの誤差関数に組み込むことで、その両方をうまく予測するモデルを扱った論文です。論文によると、多層ニューラルネットワークを用いることで、CLTVの予測において高い性能を実現し、離脱予測に関してもまずまずの性能が出ることが示されています。 業務で分析する際は別々に問題を解くことが多いと思うのですが、この論文のような同時に推定するモデルというのも非常に興味深いと思いました。両方を解くモデルの方が性能が抜群にいいという訳ではまだないですが、このようなアプローチは今後も追いかけたいです。

(引用:蓮本・後藤(2022), ”多層ニューラルネットワークを用いたマルチタスク学習による顧客購買行動予測”,情報処理学会論文誌 Vol.63 No.6, p1279)

面白かった論文4:データのスパース性を考慮した企業推薦手法の提案

出典: https://proceedings-of-deim.github.io/DEIM2022/papers/H21-2.pdf

企業推薦におけるデータスパース性を解消するための企業表現の学習手法、系列推薦モデルとデータの増殖手法を提案しその有効性を検証している論文です。人材に企業を提案した結果に関するデータを扱うに際して、スパース性が生じてしまうことから、そのようなスパース性を解消するためにデータの増殖をさまざまなアプローチで試しています。主にアプローチはTransformerのAttention機構を用いたものとなります。

(引用:福知・馬(2022), ”データのスパース性を考慮した企業推薦手法の提案”,DEIM Forum 2022 H21-2, p4)

例えば、2社しか経験していない候補者のデータに、過去のデータから似たような企業の経歴を追加してしまうなどのアプローチが挙げられています。似た企業の情報を追加したり、連続しそうな経歴を追加したりすることでアルゴリズムの性能が向上しています。 レバレジーズではこのようなログを使ってレコメンドアルゴリズムを作ることもありますが、データ拡張に関してまだまだ試していないことも多いので、今回の論文も非常に参考になりました。

まとめ

データサイエンスグループでは論文読み会をやってきましたが、普段の業務であまりチャレンジしないアプローチを知ることができ、今後の分析の糧とすることができました。もちろん、あまり参考にならない論文もそれなりにあって、ここでは紹介しなかったですが、いい論文に出会えるにはそれなりの数をこなすことも重要なのではないかと思います。これからも新しいアプローチを知る良い機会として論文を読み漁って行きます。