ユーザー向け情報サービスの「評価」を考える (第3回)

こんにちは、リッテルラボラトリーの清田です。

以前執筆したこちらの記事では、情報検索システムの評価の歴史を簡単に振り返るとともに、情報検索システムの評価を考える際には「ユーザー」の存在を抜きにしては考えられなくなったこと、工学的アプローチから科学的アプローチに脱皮していく流れがあることを紹介しました。もともとは工学的システム（＝入力と出力をもつブラックボックス）として評価が行われてきたものの、Webベースの情報検索システムが普及することで、さまざまなレベルのユーザーが存在することを前提に評価することが必要とされてきたという経緯を説明しました。今回は、評価の対象となるユーザーを選ぶ上で、何に気をつける必要があるのかについて紹介します。

評価対象のユーザーを絞り込む

例えば、私たちがHOME'Sの新しい物件検索のユーザーインターフェース（UI）を開発したとします。この新しいUIを現行のUIと置き換えるときには、現行のUIと比較して「どのくらい良くなったのか」を明らかにしなくてはなりません（もし以前より「悪くなった」のであれば、UIの置き換えをすることはできません）。

しかし、「どのようなUIが良いのか」は自明ではありません。「物件の写真を大きく表示してほしい」というユーザーだけではなく、「駅からの距離や築年数などの詳細な情報も表示してほしい」「とにかく画面中に多数の物件を一覧表示してほしい」というユーザーもいます。

そこで、「大部分のユーザーにとっての満足度が高い」ことを、「良いUIである」とみなすことにしましょう。

「大部分のユーザーの満足度」を知るためのベストな方法は、HOME'Sを使う可能性のあるすべての人々に新しいUIと現行UIの両方を試してもらい、それぞれのUIの満足度を調査することです。HOME'Sを使う可能性のあるすべての人々のうち、「新しいUIの方が良い」と答えたユーザーの割合が大きければ（例えば70％であれば）、新しいUIは「良いUIである」と判断してよいでしょう。

しかし、「HOME'Sを使う可能性のあるすべての人々」に試してもらうことは不可能です。「HOME'Sを使う可能性のあるすべての人々」について考えるということは、少なくとも「インターネットを日常的に利用しており、日本国内に居住していて、将来引っ越しを経験する可能性のあるすべての人々」について考えるということです。この調査を実現するのは、以下の理由で不可能です。

「インターネットを日常的に利用している」「日本国内に居住している」「将来引っ越しを経験する可能性のある」という条件を満たす人々の数は、少なくとも千万人単位に上るでしょう。それだけの大規模な調査を実施するには、国勢調査に匹敵する費用がかかることを覚悟しなくてはいけません。

仮にそのような調査が実施したとしても、すべての人々から調査への協力を得ることはできません。忙しいなどの理由で協力を断られる場合も多いでしょう。

「評価の対象としたいすべてのもの」を調べることができないという問題は、ユーザーの満足度調査にかぎった話ではありません。出荷前の缶詰の品質（不良品の割合）を調べるためのベストな方法は、すべての缶詰を開けてみることですが、すべての缶詰を開けてしまうと、売り物がなくなってしまいます。

そこで、「評価の対象としたいすべてのもの」の一部だけを抽出して調査を行うという方法が必要になります。統計学の用語では、「評価の対象としたいすべてのもの」のことを母集団といい、母集団から一部だけを抽出することをサンプリング、サンプリングされたもの（ユーザーや缶詰）のことをサンプル（あるいは標本、試料）と呼びます。サンプル（ランダムに選ばれたユーザーや缶詰）を対象とした評価結果を、母集団を対象とした評価結果とみなそうということになります。

ここで、「サンプルが母集団の性質をどのくらい忠実に表しているか」ということが問題になります。確率的サンプリングという統計ツールが、母集団の性質をできるだけ保存してサンプリングするために大いに役立ちます。たとえば、Excelシートで母集団（たとえばA大学の全学生1万人）のリストをつくり、「1から100までの整数」から一つランダムに選んだのが「65」だったときに、「65行目、165行目、265行目、…、9965行目」の100名を対象として調査を行えば、その評価結果は、「A大学の全学生」の性質をそこそこ表しているとみなしてよいでしょう（この方法を単純無作為サンプリング法と呼んでいます）。

偏りなく評価対象ユーザーを絞り込むことは可能か？

確率的サンプリングを適用するためには、評価を行う人が母集団のすべての要素について知っていなければなりません。しかし、HOME’Sのような不特定多数のユーザーを対象としたサービスでは、そもそもすべてのユーザーについて知ることはできません。確率的サンプリングが適用できないので、UIに関する評価を行うには、やむを得ず他の方法に頼る必要があります。

よく利用されるのは、以下のような方法です。

ユーザーテスト: 募集した実験参加者にUIを触ってもらい、観察やインタビューを通してUIを評価する方法です。調査会社を通じて募集することもあれば、社内で募集することもあります。
ネット調査会社を通じたサーベイ: 調査会社が抱えているモニターを対象に、ネット上でUIについてのアンケートをとる方法です。
A/Bテスト: サービス上で複数のパターンのUIをランダムに出し分けて、ログデータを通してユーザーの行動の違いを分析する方法です。

しかし、これらの方法では、いずれも選ばれる評価対象ユーザーに偏りが出ることは避けられません。調査会社が接点をもっているユーザーの集合が、「HOME'Sを使う可能性のあるすべての人々」の性質をよく表しているという保証はありません。ネット上での調査の場合は、インターネットの利用頻度の高いユーザーに偏ってしまう傾向があります。社内で実験参加者を募集する場合は、さらに偏ってしまうことは避けられません。A/Bテストの結果は、「HOME’Sを現に利用しているユーザー」の性質はよく表しているといえますが、「新しいUIによって掘り起こされるかもしれない潜在ユーザー」の存在は無視されてしまいます。

結局のところ、UIの評価では、対象となるユーザーをまったく偏りなく絞り込むことは困難であり、評価結果には必然的にある程度の偏りが入ってしまうことは避けられません。よって、得られた評価結果を利用するときは、その限界を理解しておくことが重要です。また、評価結果を研究成果を公表する場合にも、どのように対象ユーザーを選んだかを明示することが求められます。

前回の記事で紹介したKelly博士の著書「Methods for Evaluating Interactive Information Retrieval Systems with Users」では、評価対象ユーザーを選ぶための方法が体系的にまとめられています。昨年、本書の邦訳「インタラクティブ情報検索システムの評価: ユーザの視点を取り入れる手法」が出版されました（私も一部の翻訳を担当しました）。興味をお持ちの方は、ぜひチェックしてみてください。