LIFULL Creators Blog

LIFULL Creators Blogとは、株式会社LIFULLの社員が記事を共有するブログです。自分の役立つ経験や知識を広めることで世界をもっとFULLにしていきます。

ユーザー向け情報サービスの「評価」を考える (第2回)

こんにちは、ネクスト 清田です。

前回の記事では、情報検索システムの研究で評価に使われてきた「再現率」「精度」という指標について紹介するとともに、現実の情報検索システムでは、システムの「ユーザー」を巻き込まないと本当の姿は分からないことを示しました。今回は、ユーザーを巻き込んでシステムを評価するには、どんなことを考えておく必要があるのかについて紹介します。

システムとユーザー、どちらにフォーカスを当てるのか?

前回の記事では、情報検索システムを研究するには、システムを「入力と出力を持つブラックボックス」として扱うやり方と、システムとユーザーをセットにして1つの系として扱うやり方の、2つの方法があることを示しました。しかし、この2つの方法は完全に区別できるものではなく、場合に応じて両者を組み合わせて利用されます。

情報検索システムの評価を専門としているノース カロライナ大学のDiane Kelly博士は、著書「Methods for Evaluating Interactive Information Retrieval Systems with Users*1」の中で、情報検索システムの2つの研究の方法の間には、図1に示すようなさまざまなバリエーションが連続体として存在することを示しています。この図について簡単に説明しましょう。

f:id:nextdeveloper:20140609070917p:plain
図1. 情報検索システムの研究アプローチの連続体
(Diane Kelly 「Methods for Evaluating Interactive Information Retrieval Systems with Users」 p.10 より引用)

左側に行けば行くほどシステム側に寄った研究、右側に行けば行くほどユーザー(人間)側に寄った研究になっています。最も左側にある「TRECスタイルの研究」は、TREC(Text REtrieval Conference)という情報検索研究ワークショップで主流とされてきた研究のやり方、つまり情報検索システムをブラックボックスとして扱い、あらかじめ準備されている正解データを使って、再現率と精度という指標で性能を測定するというタイプの研究です。定量的な評価が可能なので、異なるシステム同士の比較も簡単ですし、工学的アプローチによって研究を進めることができます。一方、最も右側にある「コンテキストの中での情報探索の挙動」は、完全にユーザーにフォーカスを絞って、ユーザーの情報要求とふるまいの関係を明らかにしようとするタイプの研究です。そこでは標準的な評価手法が確立されていないため、定量的な評価手法が適用できず、定性的な評価によらざるを得ません。

現実には、これらの極端なケースで研究が行われることはあまりなく、多くの情報検索システムの研究は両者の中間のやり方で行われます。

例えば、図1の左から2番目の「ユーザーによる適合性評価」は、再現率・精度の指標は用いるものの、正解データはあらかじめ準備されてはおらず、研究者自身がユーザーを募集することによって、正解データなどの評価に必要な基盤を作っていくタイプの研究です。他の研究者が扱っていない新しいタイプの情報検索システムの研究に取り組むには、正解データを自分で作る必要があるため、ある程度ユーザーを巻き込んでいく必要が出てきます。

左から4番目の「ログ解析」は、ユーザーが情報検索システムを利用する際に収集できるログデータを用いるタイプの研究です。大規模なWeb情報サービスが普及するにつれて、ログ解析による研究が非常に盛んになってきています。例えば、新しいユーザー インタフェースやアルゴリズムを試したい場合、その潜在的な効果を測る場合にログ解析はきわめて強力な手法です。

真ん中の「TRECインタラクティブ研究」は、インタラクティブ情報検索システムを対象とした研究で、最近のTRECでは研究が非常に盛んになってきています。このタイプの研究は、主にユーザーに直接関連した機能を研究の対象としていて、さまざまなデータ収集手法を用いてユーザビリティを評価します。また、ユーザーへのインタビューによって質的評価を得ることも行われます。

情報検索システム評価の歴史

歴史的にみると、情報検索システムの研究は、工学的アプローチを適用できる図1の左側に寄った研究アプローチが中心でした。情報検索システムがユーザーの存在を前提としている以上、ユーザーを巻き込んだ評価をする必要があることは、1970年代にはすでに認識されていました。しかし、確立された評価手法が存在しなかったため、少数の探索的研究を除いてユーザーの方に重きを置いた評価は行われてきませんでした。1990年代中頃までは、情報検索システムはある程度訓練を受けたユーザーのみを対象としていたため、典型的なユーザー像を想定しやすいという理由もありました。

しかし、Webベースの情報検索システムが広く普及するにつれて、さまざまなレベルのユーザーによってシステムが利用されるようになってきたため、ユーザーを巻き込んで評価を行うための手法を確立する努力が本格的に始められました。現在は、大規模なWebサービスを展開する企業などを中心に、ユーザーを巻き込んださまざまな評価が行われるようになってきています。

上記で紹介したKelly博士の著書では、ユーザーを巻き込んだ評価手法が体系的にまとめられており、非常に参考になります。現在、筑波大学の上保秀夫先生を中心として本書の邦訳を出版する準備が進められており、今年秋頃には出版される予定です(清田も一部の翻訳を担当させていただいています)。興味をお持ちの方はぜひチェックしてみてください。

情報検索システムを「科学」するということ

これまで述べてきたように、情報検索システムの研究には「システム」と「ユーザー」という2つの極があって、歴史的には「システム」側からスタートして徐々に「ユーザー」側に中心が移ってくるという変遷を経てきました。エンジニアの立場から見ると、図1の「システム」側の単純化されたアプローチの方が馴染みがあります。「ユーザー」を巻き込んで評価を行うことは、問題を非常に複雑にしてしまうことから、これまではあえて避けられてきたと考えられます。しかし、今日のように情報検索システムが広く使われるようになった状況では、「ユーザー」を巻き込むことはむしろ必然的に求められるようになってきています。情報検索システムの本来の姿である「システムとユーザーの組み合わせ」を研究対象として扱うことは、複雑な問題の本質に迫るという大きなチャレンジです。工学という枠組みを脱皮して、複雑な問題の本質に迫ること、つまり「科学」という枠組みで考えることが求められます。

20世紀からの科学の発展は、「統計」という強力なツールの存在なくしては語れません。情報検索システムの研究分野でも、恣意的な要素がどうしても入ってしまう「少数のユーザーによる評価実験」や「あらかじめ準備されているクエリーと正解データの組み合わせ」というアプローチから脱皮して、「ユーザーのサンプリング」や、「実験結果の検定」などといった統計的アプローチが利用されるようになってきています。たとえば、新しいアルゴリズムの有用性を知りたいときには、一部のユーザーを無作為抽出して、元々のアルゴリズムを使っているユーザーとの違いを調べるという方法(A/Bテストと呼ばれます)がよく利用されますが、いったい何人くらいのユーザーを抽出すれば良いのかを知るには、基本的な統計的検定の知識が役に立ちます。また、情報検索システムのクエリーログデータの分析に利用されている手法の多くは、統計的アプローチそのものです。

次回の記事では、評価の対象とするユーザーを選ぶ場合に気を付けておく必要があることについて紹介しています。

*1:

Methods for Evaluating Interactive Information Retrieval Systems and Users (Foundations and Trends(r) in Information Retrieval)

Methods for Evaluating Interactive Information Retrieval Systems and Users (Foundations and Trends(r) in Information Retrieval)