LIFULL Creators Blog

LIFULL Creators Blogとは、株式会社LIFULLの社員が記事を共有するブログです。自分の役立つ経験や知識を広めることで世界をもっとFULLにしていきます。

自由に使える巨大なWebログデータはないの?

こんにちは、リッテルラボラトリーの清田です。

現在、巨大なWebログデータを活用して、ユーザーの潜在的なニーズを解析するという取り組みが盛んにおこなわれています。ネクストでも、HOME'Sのログデータを主な対象として、住まい探しのユーザーのニーズをとらえてサイト改善や情報レコメンデーションに活用するための取り組みが進められています。

「Webログデータ活用の最前線にはいないけれども、巨大なWebログデータがどういうものかを知りたい」「巨大なWebログデータを実際に触って分析してみたい」と思っている方もおそらく多いのではと思います。Webで検索すると、HadoopやAmazon Elastic MapReduce(EMR)によるログデータ解析を企業内で活用している事例はたくさん見つかります。しかし、大規模なWeb情報サービスを展開している企業に在籍していない方にとって、そのようなデータはなかなか手に入らないというのが現状ではないでしょうか。

Webを研究対象としている大学の研究室でも、「どうやって巨大なWebログデータにアクセスするか」は大きな問題になっています。WSDMというWebデータ活用に関する国際会議での発表論文を調べてみると、大学の研究者と企業の研究者による共同研究が多いことがわかります。ほとんどの場合、大学と企業の共同研究では、大学と企業が何らかの秘密保持契約を結んだ上でデータの提供が行われています。日本でも、たとえば国立情報学研究所(NII)を通じて提供されているデータセットがあり、Yahoo!、楽天、ドワンゴなどの企業が研究者向けにデータを提供しています。

ただ、「まずは触って試してみたい」というニーズでは、契約手続きなどはちょっとハードルが高いかもしれません。そこで今回は、「巨大なWebログデータのうち、だれでも手続き不要で自由に利用できるものがないかどうか」というテーマを扱います。

巨大データの公開の取り組み

「ソフトウェアを誰でも自由に利用できるようにする」というオープンソースの概念はすでにおなじみかと思います。近年は、オープンソースの概念は文章・画像などの創作物ハードウェア、そしてデータにも広がってきています。とくに、政府や地方自治体がもつ統計情報(人口・経済など)や、科学研究に利用されるデータ(気候予測・ヒトゲノム情報など)の公開・利用はずいぶん進んできました。

Amazon AWSでも、誰でも自由にアクセスできるさまざまなデータをホストする仕組みとして、Public Data Setsが提供されています。AWS Pubic Data Setsのリストにアクセスすると、宇宙科学、生命科学、化学、気候学、経済学などの分野でさまざまなデータが公開されていることがわかります。

f:id:nextdeveloper:20140623091643p:plain

しかし、AWS Public Data Setsには「Webログデータ」に相当するデータはほとんど見当たりません。そもそも、世の中に「自由に使える巨大なWebログデータ」というものはほとんど存在しないようです。いったいなぜでしょうか?

Webログデータを公開するリスク

Webログデータを研究用途などに利用できるようにしようという取り組みは過去にいくつかありました。代表的な例が、AOLが2006年に公開したAOL Search Query Logsです。AOLは、非商用の研究利用に用途を限定して、50万ユーザーの3ヶ月間(2006年3月〜5月)の検索ログデータをWeb上で公開しました。

しかし、AOLはこの件でたくさんの抗議を受けてしまい、すぐにこのデータを取り下げてしまいました。検索ログデータ中にユーザーのプライバシーに関わる情報が含まれているというのがその理由でした。(AOLはすぐにデータを取り下げたものの、多くのコピーがいまも出回っているようです)

AOLが公開したログデータには、ユーザーを直接特定できる情報(ユーザーIDやIPアドレスなど)は含まれていませんでした。しかし、検索クエリーの中にはユーザーを間接的に特定しうる情報が含まれていることが問題になってしまいました。たとえば、「自分の名前」で検索したユーザーがいた場合、特定できてしまう可能性があります。この事件の顛末を知りたい方は、英語版Wikipediaの記事などをチェックしてみてください。

AOLの件に限らず、プライバシー情報を含む可能性のあるログデータを共有する際には、細心の注意が求められます。プライバシー情報を含むデータを、個人のプライバシーを侵害せずに共有・活用するにはどうしたらよいかは、プライバシー保護データマイニング(Privacy-Preserving Data Mining, PPDM)という分野で盛んに研究されています(PPDMについては、また別の機会に紹介したいと思います)。

Wikipediaアクセス統計の最新データをElastic MapReduceで使えないか?

残念ながら「手軽に利用できる巨大なWebログデータ」というものはなかなか手に入らないのが現状のようです。しかしながら、Webログデータそのものでなくても、「巨大」かつ「最新」で、「世の中の動きを反映」して、「Elastic MapReduceなどで簡単に使える」ようなデータがあれば、巨大なログデータを触る面白さは体験できそうです。

Wikipediaのアクセス統計データは、そのような条件をある程度満たすかもしれません。前述のAWS Public Data Setsにも同じデータが含まれています。ただ、S3ではなくEBSスナップショットでの公開なので、Elastic MapReduceではちょっと使いにくそうです。また、できれば最新のデータで試したいところですが、あいにく2010年現在のデータであり、更新されていないようです。

もしWikipediaのアクセス統計データの最新版がAWS S3上にあれば、そのような条件をある程度満たせるのではないかと思っています。たとえば、「直近で話題になったキーワード」や「特定の話題(たとえばW杯)の言語圏別での盛り上がり方の違い」などがEMRで解析できれば、いろいろと面白い結果が得られそうです。

現在、Wikipediaのアクセス統計データのS3上での公開の準備を進めています。次回以降の記事で、データの利用方法や、実際に解析してみた結果などを紹介していきたいと思います。ご期待ください!