LIFULL Creators Blog

LIFULL Creators Blogとは、株式会社LIFULLの社員が記事を共有するブログです。自分の役立つ経験や知識を広めることで世界をもっとFULLにしていきます。

LIFULLファクトブックで目指す真のドメイン知識獲得

グループデータ本部データサイエンスグループの嶋村です。

グループデータ本部は、LIFULLグループで生まれる新たなデータを安全かつ効果的に活用できるようにし、事業の変化と持続的な成長を促進することを目指している組織です。その中で、データサイエンスグループは研究開発組織として、「活用価値のあるデータを創出」し、「データを活用した新たな機能やサービス」の研究開発に取り組んでいます。

事業を革進し続けて様々な社会課題を解決していくために、データを最大限に活用できる状態にしていきたいと考えています。その一環として、分析に関わる社員全員に対して、真のドメイン知識獲得、またデータ分析リテラシー向上の機会としてLIFULLファクトブックの作成に取り組んでいます。

LIFULLファクトブックとは

LIFULLファクトブックは事業部のアナリストと連携をしてトライアルとして昨年から作成を始めていたのですが、形として完成してきたことから、先日、社内でLIFULLファクトブックの紹介をしました。トライアルの中で試行錯誤を続け洗練してきたこともあり、広く興味を持ってもらえる結果となりました。その際の資料をお見せできる範囲で用いながら、LIFULLファクトブックとは何か、ご紹介したいと思います。

LIFULLファクトブックに関する取り組みには2つのねらいがあります。1つ目は「真のドメイン知識の獲得をすること」で、良質な仮説を作れる状態やドメイン知識が共通化される状態にし、事業革進の効率を高めるということです。2つ目は「分析リテラシの向上をすること」で、正しい分析や説明を意思決定層へ届けることで、迅速で正しい意思決定ができる状態にすることです。

たとえば、分析をする際に「代表値」として「平均値」が使われることが多いですが、統計的な知識を持たず、「とりあえず平均値で」という状態だと誤った解釈になり、正しい意思決定にもつながりません。分布の特性次第で平均値が良いのか、中央値や最頻値といった他の代表値が良いのか、変わってくることがあります。また、二峰性など複数の分布が混在している場合では、分布を確認したうえで成分を分ける必要もあります。

LIFULLファクトブックを活用し、実際のデータがどのような分布になっているのかを確認するだけでなく、読み会と呼んでいる集まりを通じて継続的にディスカッションをしています。特定の仮説や目的を持った分析(アドホック分析や深堀り分析と呼んでいます)とは異なり、様々な軸での分布を見ることでファクトを確認します。その際に、今までの経験から想像していたデータと実際に確認したデータが異なるという気づきを得られることが多く、正しくファクトを定着させることが重要であると再確認できました。

下図はLIFULLファクトブックのコンテンツ例です。左側に分布を理解するためのグラフがあり、右側に要約や説明が記述されています。左側のグラフでは、需要と供給を表すデータの分布をそれぞれ載せており、分布の山の違いが一目でわかるように可視化しています。また、累積分布を載せることで、分布のビン幅(横幅)に囚われず、分布の形状を正しく理解できるようにしています。右側では、各種統計量を載せ、グラフおよび統計量から読み取れるファクトや考察が記載できるようにしています。また、どのように作られたデータやグラフなのか、参加者が後からでもわかるように、算出方法の定義や関係資料へのリンクを載せられるようにしています。

LIFULLファクトブックの作成や読み会を通じて、様々な意見をいただきました。当初は活動の意義がなかなか伝えられず賛同を得られない場面もありましたが、現在では読み会の参加者も大幅に増え大盛況になっており、社内兼業制度「キャリフル」を活用して読み会での発表をする社員も増えてきました。最初はグラフやデータの読み方がわからない、という声がありましたが、一つ一つレクチャをすることで「統計の基本知識がわかるようになった」「ドメイン知識を得る良いきっかけになった」といった声も多く集まりました。

おわりに

今回は真のドメイン知識を獲得しデータ分析リテラシを向上させる取り組みである「LIFULLファクトブック」の紹介をしました。

お知らせとなりますが、データサイエンス系の自社イベントLIFULL AI Hub 100ミニッツを計画しており、次回は「LIFULLファクトブック」の取り組みについて紹介をする予定です。少しでも興味を持ってくださった方は、是非、気軽にご参加いただけると嬉しいです。

最後になりますが、データサイエンスグループでは「活用価値のあるデータを創出」し「データを活用した新たな機能やサービス」の研究開発活用を加速して下さるシニアデータサイエンティストを2枠募集しています。

  1. 【研究開発職】データサイエンスで高難易度な技術課題に取り組む研究開発に興味ある方
  2. 【実事業への活用促進職】研究開発成果や新たなAI技術を活用し、実プロダクト・システム開発推進に興味ある方

いずれかに興味お持ちいただける方は、カジュアル面談も行っていますのでお気軽にご連絡ください。

hrmos.co