LIFULL Creators Blog

LIFULL Creators Blogとは、株式会社LIFULLの社員が記事を共有するブログです。自分の役立つ経験や知識を広めることで世界をもっとFULLにしていきます。

「HOME'S」の物件・画像データセットを研究者に提供開始します!

こんにちは、リッテルラボラトリーの清田です。

このたび、国立情報学研究所(NII)のご協力を得て、HOME'Sに掲載されている日本全国の賃貸物件データ(約533万件)と、それに紐付く物件画像データ(約8300万件)を研究資源として無償提供することになりました。あわせて、画像処理分野などで注目を集めているdeep learningなどの機械学習アルゴリズムや、テキストマイニング処理などを簡単に試していただけるツールキット群も年内に公開予定です。

2015年11月24日より、NII情報学研究データリポジトリを通じてHOME'Sデータセットとして提供開始しました。ぜひ多くの研究者の方にデータセットを研究利用していただき、住まい探しを変革するようなイノベーションにつなげていただけると嬉しいです!

詳しい内容については、以下のイベントでお話しさせていただきました。 スライドファイルを公開しておりますので、ご覧ください。

www.slideshare.net

また、WebDB Forum 2015特別セッション「産学間データセット共有の意義、課題と将来の展望」に登壇し、データセット提供開始の背景について話しました。石田が参加報告を書いておりますので、こちらもぜひご覧ください。

nextdeveloper.hatenablog.com

どんなデータが使えるの?

株式会社ネクストが運営する物件数No. 1*1の不動産・住宅情報サイトHOME’Sに2015年9月時点で掲載されていた日本全国の賃貸物件データ(約533万件)、および物件画像データ(約8300万件)が利用できます。

とくに物件画像データは、deep learningなどの最先端の機械学習アルゴリズムの適用を想定し、画像の種類(間取り図、外観、居間、キッチンなど)やフリーテキストなどのメタデータとのセットで提供します。

データセットの中身は?

データセットはTSVファイル形式(ただし画像データはJPEG形式ファイル)で提供します。概要は以下の通りです。

  • 日本全国の賃貸物件データ (2015年9月時点で全国約12,000の加盟不動産店舗から寄せられた全データ、のべ約533万件)
    • 物件種別 (マンション、アパート、一戸建てなど)
    • 費用 (賃料、管理費、敷金、礼金など)
    • 部屋面積、間取り、築年数、建物構造など
    • 立地 (市区町村・郵便番号、最寄り駅・徒歩分、最寄り小学校・中学校・コンビニ・病院までの距離など)
    • 諸条件 (オートロック、システムキッチン、バス・トイレ別、エレベーター、駐車場、etc.)
    • 物件特徴 (フリーテキスト)
  • 賃貸物件の画像データ (約8300万枚)

なお、物件を直接特定可能な情報(緯度経度、詳細な住所など)は含まれません。

簡単に使えるの?

NIIのご協力を得て、情報学研究データリポジトリ(IDR)を通じてデータセット一式を提供いたします。NIIへの簡単な利用申請手続きを経て、申請から1〜2週間後にNIIから案内されるダウンロードページを通じてデータセット一式を入手できます。

また、より手軽にデータ利用をお試しいただけるように、GitHubにてツールキットを公開しました。

nextdeveloper.hatenablog.com

ツールキットの利用により、以下のような処理を簡単に実行することができます。

  • 物件画像データへのdeep learningの適用
  • フリーテキスト情報中の頻出キーワード抽出(地域別、最寄り駅別など)

誰が利用できるの?

利用申請していただいた研究者です。ただし、公的機関(大学などの教育機関、独立行政法人などの研究組織、etc.)の研究者が対象となります。

  • 学生の方は、研究指導教員による手続きで利用できます。
  • 国立情報学研究所およびネクストによる簡単な審査があります。
  • 公的機関に所属しない研究者の方が利用を希望される場合は、弊社窓口(corp-info アットマーク next-group.jp)を通じてご相談ください。

何のために提供するの?

HOME'Sデータセットの共有をひとつのきっかけとして、住まい探しに関連するさまざまな研究課題に多くの方々と協力して取り組むことによって、住まい探しのマーケットそのものを変革するようなイノベーションを起こすことを目指しています。

不動産・住まい探し分野の研究活性化

国内最大規模の物件情報データの提供によって不動産・住まい探しに関する研究が活発になることで、今までにない住まいの探し方など、新たなイノベーションが生まれてくることを期待しています。

産学連携の機会創出

共通のデータセットを産学間で共有することによって、共同研究の取り組みを加速するとともに、産学の垣根を越えて不動産・住まい探し分野にフォーカスする研究コミュニティの創出を目指しています。

人材育成への貢献

本データセットを用いたハッカソンやインターンシッププログラムを実施することで、学生の方々が実世界のニーズに触れる機会を提供し、イノベーションに携わる次世代の人材育成に貢献していきます。

おわりに

今回の取り組みにあたっては、多くの研究者の方々からのヒアリングを事前に行わせていただき、研究コミュニティ内の潜在的なニーズにできるかぎり合致するようにデータセットの設計を行いました。また、データセット提供の枠組みの構築にあたって、アカデミック・リソース・ガイド株式会社(ARG社、代表: 岡本真氏)からのご協力を得ました。ご協力をいただいたみなさまにこの場を借りて深くお礼申し上げます。

問い合わせ先

  • 情報学研究データリポジトリ(IDR) Webサイト: http://www.nii.ac.jp/dsc/idr/
  • NII IDR事務局: idr アットマーク nii.ac.jp
    • ※公的機関に所属する研究者の方以外からのお問い合わせは、弊社問い合わせ窓口(homes-dataset アットマーク lifull.com)までお願いいたします。

*1:リサーチ・アンド・ディベロプメント調べ(2015.3.16発表)でナンバーワン「at home、CHINTAI、HOME'S、O-uccino、SUUMOで掲載する賃貸物件、売買物件数を各都道府県別に調査期間内における2日間での平均を数表化したもの」