はじめに
こんにちは!レバレジーズ株式会社 データ戦略室 マネージャーの小山です。
データアーキテクトグループのリーダーも兼任しており、社内からデータ蓄積やデータモデリングの相談をいただくことも多いです。
先日、弊社の役員から人事データ蓄積およびアナリティクス基盤構築の相談をもらいました。
ちょっとした人事データ抽出やPeopleAnalyticsは昔からほそぼそと行ってきてはいたのですが、非常に苦労が多いです。
せっかくなので、一般的な事例や自分の経験を交えつつ、「やや特殊な領域で整備には時間がかかるから早めに人事に関するデータ蓄積をしていった方が良いぞ〜」ということが伝われば良いかなと思います。
人事データ基盤構築の必要性
近年はDXやらAIやらが流行っている中で、人事領域にも科学的なアプローチが重要視され、溜まったデータを元に戦略人事を実現することに興味をもつ企業が増えてきていると思います。
会社によってどのようなデータを「人事データ」として取得しているのかは様々かと思いますが、パーソルさんのサイトによると一般的には下記のようなものが該当するとされています。
社内の人事データを分析することによって、様々な角度から自社の人材に関する分析を行うことができます。人事の領域は「人」を扱う領域のため、全てをデータドリブンに判断して意思決定を行うことは難しいのですが、それでも過去データによって意思決定への示唆を提示することは可能です。
また、経営的な観点からすると、社内の人事状況に関しても適切なKPIを設定し、ビジネスと同じく、常に健康状態をモニタリングしておくことも非常に重要でしょう。
ただ、人事データと一口に言っても上記の通り様々なデータがあります。
必要なときに毎回毎回多種多様なシステムからデータ抽出してくるのは大変ですし、そもそも分析をしたいと思ってもどのようなデータが社内に蓄積されているのか一元管理されていなければ分析仮説も立てにくいです。都度都度データ加工を行っていると、以前と同じデータを出したいのに異なるデータ定義で抽出してしまう可能性も高いです。
人事データという特性上、データ活用環境において匿名化を行うなどのセキュリティ対策を行うことも重要です。
ビジネスデータと比較してより一層安心安全にデータ活用するための基盤構築のニーズが高まっています。
なぜ人事データの蓄積が難しいか
ただし、人事データがきれいに蓄積できている環境というのは、他社の方のお話を聞いても現実的にかなり少ないのではないかと思います。
私も人事データ蓄積や分析に携わってから数年が経ちますが、人事領域においてはそもそも必要なデータがきれいに蓄積されておらず、データ活用に非常に苦労する場合が多いです。
人事データはバックオフィス業務と密接なつながりを持っているため、何らかのバックオフィスの業務システムで管理されている場合が多いです。つまり、バックオフィスオペレーションを素早く円滑に行うことを目的としてデータ定義がなされていることが一般的です。そもそも、人事データを活用するという観点で適した形としてはデータが存在していない場合が多い、というのが難しい理由の根底にあるものかと思います。
具体的には下記のような状態です。
- 個人情報、評価、勤怠、異動履歴、研修履歴、個別サーベイなど、全く別のシステム、データベースにデータが格納されている。なんならデータベース化されていないデータが存在する。
- バックオフィス業務オペレーションに必要ないデータは残っていないことも多い
- データが標準化されておらず、システムによってマスタ内容が違ったり、データが残されている粒度が違ったり、部門によって言葉の定義が違ったり、データ定義が違ったり、ログ発行の基準が違ったりする
欲しいデータが残っていないことも多々ありますし、役職の「リーダー」を部門ごとに違う定義で使用していたり、「優秀である」という定義が人によって違うためデータで表現するのが難しかったり、定義問題が難しいのもよく発生する話です。
人事データの種類
とはいえ、データ蓄積を推進してみようということで、ある程度人事データをデータ蓄積観点から分類してみましょう。
データモデリングの観点からは、「データが入社後に変化するか否か」「データが1人に対していくつ存在するか(1対1か1対多か)」の2軸で考えていくと良さそうです。データは社員番号をユニークキーとして考えましょう。
入社後に変化するか否か | 1人に対していくつ存在するか | データ例 |
---|---|---|
不変 | 1対1 | 生年月日、性別、など |
不変 | 1対多 | 学歴、職歴、など |
可変 | 1対1 | 住所、所属チーム、など |
可変 | 1対多 | 人事評価結果、研修受講履歴、など |
不変系のデータは、1対多の関係性をを適切に別テーブルとして表現するなり、配列型で格納するなり、を考慮するぐらいで対応可能です。正直配列型での格納はあまりやりたくないですが、バックオフィスシステムの仕様的に仕方ない場合もあります。(ありました。)
問題になってくるのが入社後可変系のデータです。可変系のデータはシステムの仕様によってはデータベース上のデータが上書きされることが想定されるため、何らかの形で履歴データを保持して出力する必要があります。
「可変×1対1」のデータは履歴データに「変更年月日」、「可変×1対多」のデータは履歴データに「開始年月日」「終了年月日」などの概念を持つデータが付加されていれば問題なさそうです。
システム仕様上、変更履歴の保持ができるようなシステムであればそのログを利用し、出来なさそうなシステムであれば自前で変更時にログを取得する機構をつくるか、ある程度の期間でスナップショットデータを蓄積していくような対策を行う必要があります。その後のデータマートへの加工も考えるとちょっと大変なのですが、そこは頑張りましょう。
良いデータ分析は良いデータ蓄積から
実際に人事データを分析すると、思ったようなインパクトのある結果が出ないことも多いです。しかし、ベテランマネージャーの方の話をお聞きすると、マネジメントにはその方なりの法則性があるのも事実。そのような感覚をデータで再現できないのは、分析手法の問題ではなく、実は判断に必要なデータ蓄積が適切にできていなかった、特徴量に組み込めていなかった、といったことがほとんどなのです。
人事データはデータを溜めるためにも入力者の作業コストを有する場合が多いのが現状です。きれいなデータを溜めるにも様々な方の協力が必要になる領域のため、社内への泥臭い啓蒙活動も重要になってきます。
こんなことできるようになるかもね
様々な外部事例などを収集してまとめると、世の中的にはだいたいPeople Analyticsの活用事例、拡張可能範囲は下記のようになるようです。
色々と科学できたら良いなということは考えつつ、まずは、自社の状況に合わせて、一歩ずつ人事データ活用を進めていくために、まずは着実に土台となる基盤と、データ蓄積文化を作っていく必要があると実感しました。
データ蓄積は一日にしてならず。以上、早めの人事データ蓄積のすゝめでした。