レバレジーズ データAIブログ

インハウスデータ組織のあたまのなか

2025年のレバレジーズのデータ活用基盤(1年の振り返り記事)

はじめに

こんにちは! テクノロジー戦略室 データプロダクトグループの森下です。 先週の記事は、AIMLチームによる昨年の振り返りでした。 今回はデータエンジニアとして、データプロダクトグループで実施してきた活動の1年間と、これから注力していきたいことについて記載します。

2025年にやったこと

ELT・ワークフローエンジンの引っ越し

これは2024年から引き続きでしたが、6年前に構築したDigdagとEmbulkの構成から、AirflowとFivetranへ引っ越しを続けていました。AirflowはGoogle CloudのCloud Composer上に実装しています。DigdagとEmbulkは1つの大きなサーバーに入れ込んでいたため教科書に載ってそうなSPoFでした。これをデータソースや更新頻度、データ量などに応じて、Fivetranに移管するかCloudComposerのDagとして実装するかを設計し実装を進めていきました。 2025年のはじめ頃に、Cloud Composer 2へ大方の移行は完了しましたが、Cloud Composer 3がリリースされたことを受け、Cloud Composer 2からCloud Composer 3への引っ越しを行っていました。移行したDAGの数は80ほどになります。

左が旧環境、右が新環境

散らばったリソースのCloud Composerへの集約

今のデータ活用基盤は6年前から運用しています。それなりに長く運用を続けているため、既存のワークフローエンジンであるDigdagに載っている処理以外に、Cloud Run・Cloud Functions・Cloud Scheduler・Compute Engine・Cloud Workflowsなど、様々な場所にリソースが散らばっていました。そこで、Digdagに載っていないリソースについてもCloud Composerへ集約し、ひとまずCloud Composerを見たら全体像が把握できるようにしました。また同じ技術スタックを使用することによるノウハウの蓄積や新規実装の高速化も期待できます。

テーブル定義書自動更新

Dataplexへの集約も検討しましたが、既存のスプレッドシートと比較して検索が遅すぎたため、テーブル定義書に記載する内容はGitHub管理、アウトプットはスプレッドシートとし、更新漏れ・品質低下を防ぎつつ社内の誰でも検索できる基盤を構築できました。また、数百あるテーブル定義書を手動管理するのは現実的ではないため、自動化できたことに多大な工数削減と同時にスケールする仕組みも構築できたと思います。 DataformでカラムDescriptionを記載しているので、そこから取得するだけと思われましたが、複合ユニークを正確に取得する部分・データ例を取得する部分でかなり苦労しました。 GitHub ActionsとLLMで実装しており、事業成長に伴い増えるテーブル、新規事業への横展開ができる仕組みを整えることができました。

データ品質チェックの開始

テーブル定義書の自動更新に合わせて、データ品質チェックも入れ込みました。まずはNotNull、ユニークといった主要な項目についてデータ品質チェックを日次で回せる体制が整いつつあります。こちらはDataformのAssertionを使ったもので、1日に複数回の実行があるテーブルとの差別化のため、全てのsqlxファイルにTagを埋め込むところから始めます。変更が入ったファイルはテーブル数と同じで数百を超えますが、こちらについても、品質の高いテーブル実装をスケール可能な仕組みで構築することができたと思います。

社内用アナリティクスAIエージェントの開発

様々な会社から事例が出ていますが、レバレジーズとしてもtext_to_sql を実現するアナリティクスAIエージェントの開発およびPoCを進めています。他企業と異なる点で言えば、現在PoC中のアナリティクスAIエージェントはデータアナリスト向けではなく、セールス・マーケターといった非データ職種という点になります。レバレジーズは学習意欲の高いメンバーが様々な職種にいることもあり、業務に必要なデータは自分たちでSQLを書いて抽出し、簡単なモニタリング環境を作ったり業務に活かしたりしています。ただし、そういった方々が注力するべき業務はデータ抽出ではなくセールスやマーケティングであるため、SQLの学習コスト・SQLの実装工数を省略できると、より本質的な業務に割く時間を捻出できます。 まだPoCが始まったばかりで、精度もまだまだですが、完成すれば大きな価値を発揮するプロダクトになると感じています。

※こちらは架空のやり取りです

社外登壇

2024年と比較して、たくさんのアウトプットを社外に公開することができました。 このブログでもそうですし、イベントへの登壇数が増えたことが大きく変わった点かなと思っています。

クローズドな勉強会を除き、以下がデータエンジニアが登壇したイベントの資料になります。

イベント登壇が増えた背景には、登壇に積極的なメンバーが増えたということもありますが、それよりも社外にアウトプットとして出してもいいと思えるような仕事ができるようになったことが大きいと思います。2023年の9月にTreasure DataからBigQueryへのDWH移管が完了しましたし、そこから更にCloud ComposerやFivetran移管などのプロジェクトが走っていました。業界のスタンダードに置き換えようというプロジェクトが一通り落ち着き、マイナスを0にするような仕事よりも、プラスを増やしに行く仕事をする機会が増えてきたからだと思っています。

界隈でそれなりに話題になった8層アーキテクチャ

2026年にやること

Airflow 3への引っ越し

昨年はCloud Composer 2からCloud Composer 3への引っ越しで、Airflow自体は2系のままでした。Airflow 3系のCloud Composerがリリースされ、Airflow 2系のサポートが2027年2月までなので、今年中にAirflow 3への引っ越しを行います。まだあまりチームとしてノウハウが貯まっておらず、またAirflow 2から3は大幅アップデートがあったので、DAGのファイルをそのまま引っ越しはできなさそうです。これはかなりの大きな仕事になりそうです。

社内用アナリティクスAIエージェントの事業部拡大

現在PoCを行っているアナリティクスAIエージェントを特定の事業部で正式にリリースし、ノウハウを貯め、それを横展開させていきたいと考えています。 レバレジーズの中でも大きな事業に対して導入を進めていければ、数百人が日常的に使用するプロダクトに育っていきます。 これを実現するためには、AIエージェントに読み込ませるためのきれいなデータが必要で、それらはデータ戦略室のデータアーキテクトグループの方々が実装していただいています。 感謝しかありません。 これが実現できれば、SQLの学習コスト・正確かどうかわからないデータ抽出を減らすことができ、セールスやマーケターが本来の業務に割く時間を増やすことができ、全社的な生産性向上に繋がると考えています。 AIエージェントが作成したSQLの評価、既存SQLとの差分の説明性など、多くの方々に使っていただくためには多くの課題があります。

非構造化データの蓄積と活用事例創出

内製SFAを始めとするRDBやSaaSといった構造化データのETLをFivetranへ移管したことにより、実装や保守運用工数を下げることができています。 となれば次はフリーテキスト、画像、音声、書類、動画などの非構造化データを収集・蓄積・活用のフェーズになります。 LLMを通せばテキストに変換でき、テキストになればLLMで処理できるため、収集・蓄積・活用の実装工数はかなり下がっていると思います。 非構造化データをベクトルDBに格納し、社内ドメインを蓄積して検索エンジンを実装する、といったことができれば、構造化データを主に用いていたところから一歩進化して活用できるデータが増えるため、社内にたくさん活かせそうだと考えています。

社内インフラとして使用されるデータ基盤のプロダクトマネジメント強化

プロダクトマネジメントを強化していきたいと考えています。 具体的には、事業部に対してSLAを設定します。 また、事業運営に欠かせない存在になっているからこそ、コスト意識を高く保つ必要があると考えており、コストモニタリングを強化し、利用拡大のために許容してきた無駄なコストの削減も行っていく予定です。 コスト削減に関してはできればできるほど嬉しいですが、じゃあどこまで頑張ればいいのかという点もあるため、事業の売上に対してこれぐらいだったら許容だよねというラインを事業部と握り、そこに対してコミットを進めていけたらと思っています。これに関しては、BigQuery含めたGoogle Cloudだけでなく、BIツールとして採用しているTableauやFivetranの費用も含めたもので策定と運用を進めていこうと思っています。

振り返り

こうやって改めて振り返ってみると、2025年は将来の成長のために、足元固めにリソースの多くを割いていました。後半では、アナリティクスAIエージェントの開発など新しい取り組みにも着手できました。 2026年度はデータ基盤の安定性を向上させるとともに、LLMを用いたプロダクトの開発に注力できるかと思います。 また、目の前の課題を解決するというより、今までの課題解決型アプローチから戦略的なアプローチへとシフトし、自社の成長に合わせて大きなビジョンを描き、そこに向かって戦略的にプロダクトとしてデータ基盤を磨き込んでいく、価値を向上させていくという仕事が増えそうです。

レバレジーズ株式会社では一緒にサービスを開発してくれる仲間を募集中です。 ご興味ある方はぜひご応募ください!

hrmos.co

hrmos.co

hrmos.co

hrmos.co

hrmos.co