-
Notifications
You must be signed in to change notification settings - Fork 9
/
ch-othertopic.tex
139 lines (116 loc) · 15.7 KB
/
ch-othertopic.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
%!TEX root = main.tex
%!TEX encoding = UTF-8 Unicode
\chapter{推薦システムのその他の問題や視点}
\label{chap:othertopic}
その他の視点に関する研究をまとめて述べる.
\section{対話型システム}
\label{sec:interactive}
これまでの推薦システムは,過去に入力された嗜好データに基づいて利用者の嗜好を予測し,一度だけ推薦の提示を行う.
だが,利用者がその推薦に満足できない場合がある.
そうした場合に,活動利用者からフィードバックを得て,その情報用いてより適切な推薦をする対話的な推薦も研究されている.
フィードバックは,アイテムへの評価値を返すアイテムレベルと,アイテムの特徴を指定する特徴レベルとに分けられる.これらを順に紹介する.
\subsection{アイテムレベルのフィードバック}
機械学習のクラス分類の訓練事例では,ラベル付けされている事例の特徴ベクトルは受動的に決められているのが一般的である.
そうではなく,能動的に都合のよい特徴ベクトルをもつような事例を指定すると,それに対するラベル情報が得られる状況を扱うのが能動学習\cite{jb:035:00}である.
この枠組みを導入し,推薦の予測精度が不十分だった場合に,推薦を改善するのに役立つであろうアイテムを利用者に評価してもらうことが考えられる.
ではどのアイテムを評価させるのがよいだろうか?
直観的に,利用者によって評価にばらつきがあり,好みの分かれるアイテムを評価してもらうのはよいだろう.
このように,教師情報を得るデータを能動的に選択する機械学習の枠組みを\term{能動学習}{active learning}という.
この枠組みに基づいて,他の利用者の評価値の分散やエントロピーが大きなアイテムを選ぶ方法が提案されている\cite{ec:033}.
文献\cite{uai:03:02}では,アイテム選択の尺度として,期待情報価値 (expected value of information; EVOI) を提案している.
まず,現在の嗜好データで予測したとき,期待的に最も良い評価値は,全未評価アイテム上での,期待評価値の最大値である.
ここで,未評価アイテムの一つ$x_q$に対する評価値を利用者から得ると,この最大期待評価値は変化するはずである.
だが,どのような評価値を利用者が返すかは分からないので,評価後の最大期待評価値の,評価値定義域$\calR$上の期待値を考える.
この期待値から,評価前の最大期待評価値を引いた値をEVOIとする.
すると,EVOIは,利用者からアイテム$x_q$に対する評価値を得たことによる,最大期待評価値が改善する量を表す.
よって,このEVOIを最大にする未評価アイテムを活動利用者に評価してもらえばよい.
だが,実際には計算量が多いため,このEVOIの値の代わりにその上限を計算して代用する.
その他,候補アイテムの評価値が予測どおりであったときと,それとは若干ずれた値であったときの,他の未評価アイテムの予測評価値の変化の大きさが大きいアイテムを選ぶ方法も提案されている\cite{trjsai:07:06}.
この能動的評価の問題点は,利用者が任意のアイテムをすぐに評価でなければ適用できないことである.
例えば,音楽であればその場で聞かせて評価させることができるが,映画や書籍の場合では難しい.
純粋な協調フィルタリングでは,コンテキストの情報(\ref{sec:featuredata}節)を利用できない.
また,コンテキスト自体を特徴として明示することが困難な場合がある.
そこで,文献\cite{ej:051}は嗜好データを長期と短期のプロファイルに分けて考える手法を提案している.
長期プロファイルとは,現在の推薦のセッションより以前に入力された嗜好データで,利用者の基礎となる嗜好パターンを表しているとみなす.
一方,現在のセッションで提示した推薦リスト中のアイテムに対する嗜好データが短期プロファイルで,現在のコンテキストでの嗜好を示しているとみなす.
フィードバックは,目的のアイテムに近いものや,全く当てはまらないものを利用者に指定させる.
予測には利用者間型のメモリベース法(\ref{sec:user-user}節)に基づく.
長期プロファイルに基づいて活動利用者と標本利用者の間の類似度を計算する点は同じである.
しかし,フィードバックで肯定的だったアイテムを好み,そうでないものを嫌うような標本利用者を重視するように,標本利用者を重み付けする.
このようにして,短期プロファイルに暗黙的に示されたコンテキストを反映する推薦が実現される.
文献\cite{ijcai:03:04}は,対話的な推薦で,候補アイテムが適切に絞り込まれているかを検証する方法を提案している.
アイデアは非常に簡潔で,前回の推薦で肯定的なフィードバックが与えられたアイテムを,次回の推薦リストに混ぜておく.
もし,その混ぜておいたそのアイテムが再び選択されるようならば,絞り込みは適切でなかったと判断し,他の方向からの絞り込みに変える.
そうでなければ,同じ方向で絞り込みを続ける.
\subsection{特徴レベルのフィードバック}
特徴レベルのフィードバックは,アイテムの特徴を扱うため,内容ベースフィルタリングが対象となる.
この種のフィードバックでは,推薦されたアイテムを見て,アイテムの望ましい性質を利用者が示す.
例えば,パソコンではメモリが1GB以上といった,アイテムの特徴に対する条件の精細化をする.
\ref{chap:cbf}章で述べたように,内容ベースの推薦は情報検索と類似しているので,情報検索でフィードバッ
クを扱う手法が,内容ベースの推薦に応用できる.
情報検索では,検索質問と関連する語を利用者に提示し,利用者がそれを選択することで,検索質問拡張を実現するものがある.
これと同様の手法が,推薦システムでも利用されている\cite{ec:024}.
その他,文献\cite{ej:049}では,\ref{sec:explanation}節のように,説明を導入してより円滑に対話的な推薦を行うことを提案している.
ある特徴レベルフィードバックを利用者が返すと,次の推薦で候補の数や内容がどのように変わるのかを簡潔に説明し,より適切なフィードバックを得られるようにしている.
\section{標本利用者の選別}
\label{sec:sampleselection}
協調フィルタリングでは,他の標本利用者の意見を参照する.
このとき,嗜好が似ているだけでなく,該当分野に詳しい利用者の意見を参照する方がよいだろう.
こうした試みは,協調フィルタリングが自動化される以前からある\cite{macm:97:04}.
自動化された協調フィルタリングで,標本利用者を目的に応じて選別するアイデアには次のようなものがある.
%
ある標本利用者の嗜好データから,いろいろな活動利用者の評価値を予測する.
このとき,より多くの活動利用者の評価値を正確に予測できたとすれば,その標本利用者は他の活動利用者の評価値予測にも有用だろう.
文献\cite{ec:027}は,このアイデアに基づいた標本利用者の重み付けを提案している.
%
文献\cite{tjsai:04:09}では,各利用者が個別に文書レポジトリを所有しており,そのレポジトリは公開されている状況を想定する.
各文献を特徴ベクトルで表現し,活動利用者の評価とある標本利用者のそれが類似しているとき,その文献に関連した特徴に関して,その標本利用者は信頼できると考える.
そして,それと同じ特徴をもつ文献に対する評価では,その標本利用者の意見を重視する.
%
あるカテゴリのアイテムを,より多く評価している利用者は,そのカテゴリのアイテムについて詳しいと仮定してよいだろう.
このアイデアに基づき,文献\cite{ieeem:07:01}では,評価値を予測しようとしている目標アイテムと同じカテゴリのアイテムを多数評価している標本利用者の意見を重視することを提案している.
\section{推薦システムの運用}
\label{sec:rsysmanagement}
その他,推薦システムの運用に関係する問題についてまとめておく.
推薦システムを含めたフィルタリング技術の法的側面からの問題点を述べた解説としては\cite{jj:020}がある.
著名な推薦システムの内部アルゴリズムを概説した文献を挙げておく:オンライン小売りサイトAmazon.com\cite{ieeem:03:01},ニュースの要約サイトGoogle News\cite{www:07:01},学術文献検索サイトCiteSeer\cite{ieeem:99:02},推薦機能付きセットトップボックスTiVo\cite{kdd:04:01}.
稼働中のシステムの運用に関する情報として,書籍販売サイトbk1での推薦エンジンAwarenessNet\cite{jipsj:07:02}や,携帯向け映画推薦システムのストリートキャッチ方式によるアンケート調査\cite{trjsai:07:05}の結果などがある.
次に,推薦システムに関連の,マーケティング分野の研究について述べる.
まず,簡単な市場モデルを示した研究を挙げる.
文献\cite{ec:030}では,推薦システムが顧客の購入行動に影響を与え,市場の寡占化が生じるかを2個のアイテムがある市場の数理モデルで論じた.
購入したことを肯定的,購入しないことを否定的な評価としたとき,購入されたアイテムは推薦されやすくなり,寡占化がすすむ場合が多い.
そうならないのは,顧客が推薦を受ける以前は一方のアイテムを強く好んでいるが,推薦にも影響されやすいという状況だけに限られる.
文献\cite{ec:031}では,1回目に一方の店で購入すると推薦を受けられるが,他方の店で購入すると受けられないモデルの均衡状態を求めている.
このモデルで,推薦を受けられることの付加的な価値が,二つの店舗のシェアや顧客が購入するアイテムに与える影響を論じている.
推薦の正確さと,好みの方の商品を選択することが顧客にとってどれくらい重要であるかによって,4種類の異なる均衡状態があることを示している.
次に,推薦が顧客の意志決定に与える影響をアンケート調査した研究を示す.
文献\cite{ej:053}では,仕様だけで好みの判断ができるsearch型の商品群と,試さないと判断できないexperience型の違いについて調査し,experience型の商品群の方がより推薦に従うと報告している.
他の顧客の推薦より,推薦システムは信頼されていないにもかかわらず,実際の影響は推薦システムの方が強かったとも報告している.
また,販売業者から独立した組織の推薦であるかどうかは,信頼性や意志決定に影響しないことを報告している.
顧客はまだ知らないアイテムを推薦するとき,同時に提示する情報の影響について\cite{ej:054}は報告している.
顧客が好きなアイテムを同じ画面で共に示すと,知らないアイテムも同様にみなされて,好まれる.だが,この効果は,別画面に表示するだけで失われてしまう.
知らないアイテムに固有の情報与える(サンプル曲を聴かせるなど)と,差異が意識され,知らない推薦への魅力が下がるとも報告している.
なお,これらは,実際のシステムの推薦ではなく,推薦システムからの出力であることにして被験者に示した場合の調査結果である.
推薦システムによって,利用者の嗜好を逆転さえできることは,上記のような研究に加え\cite{sigchi:03:02}でも指摘されている.
だが,こうした行為を長期的に継続したときの影響は調査されていない.
著者は,推薦システムは\cite{dmkd:01:01}にもあるように販売側ではなく,顧客側に立つことは必要な条件だと考えている.
なぜなら,こうした利用者の嗜好のねじ曲げは,長期的には,推薦システムへの信頼を損なう危険が多いだろう.
こうしたことをせず,利用者の意向に沿うことに徹しても\cite{dmkd:01:01}にあるような三つの効用があるだろう.
第1に,顧客が真に好むものを積極的に提示することで,閲覧者を購入者に変える.
第2に関連商品を推薦してcross-sellを増加させる.最後に,顧客側の推薦を続けることによって長期的な顧客ロイヤリティを構築する.
推薦システムは,どんなに売れない商品を売ってしまう魔法の杖ではなく,逆に売れ筋商品の寡占を加速する場合もあることは意識しておくべきだろう.
\subsection{推薦の品質}
\label{sec:openproblem:quality}
予測精度以外の規準も考慮した推薦の品質\cite{sigchi:06:01}に関する研究を紹介する.
予測精度以外の評価指標の多様な規準の必要性は\cite{sigchi:06:02}などで指摘されている.
こうした基準には,アイテムの特徴\cite{www:05:01}や,単純な予測器\cite{trjsai:07:03} を用いた意外性の規準がある.
また,全利用者について推薦されるアイテムの種類の分布のGini係数を用いて推薦の多様性の評価する\cite{ec:030}も,アイテム集合全体を評価する点で興味深い.
現在は推薦するアイテムを個々に判断しているが,推薦リスト全体で最適化することを今後は重視してゆくべきだろう\cite{sigchi:06:01}.
データ入力段階では,利用者の要求をうまく獲得することが重要だろう.
まず,好きかどうかだけではなく,複数の評価項目について質問することで,どういう点で良かったのかを知る方法がある.
例えば,映画について,全体評価の他,脚本や配役などの評価も利用する\cite{ieeem:07:02}や,好みに加えて知っているかどうかも尋ねる\cite{trieice:07:03}などの研究がある.
暗黙的な獲得でも,閲覧,サンプル視聴,購入の行動を区別する\cite{ieeem:07:01}などの研究もある.
効果的な評価項目について検討する余地は広い.
嗜好の予測段階について述べる.
個人ではなく複数の利用者から構成されるグループに対する\term{グループ推薦}{group recommendation}がある\cite{ec:032,jc:011,misc:014,misc:015,misc:016}.
全利用者に対して平均的によい推薦や,だれにもあまり嫌われないような推薦など,いろいろな選択肢が考えられる.