ウェブサイト推奨システム「Guess What You Like」は、あなたの考えをどのように推測するのでしょうか?

ウェブサイト推奨システム「Guess What You Like」は、あなたの考えをどのように推測するのでしょうか?

最近では、人々がオンラインで買い物をするとき、システムから返される「あなたは(おそらく)好きでしょう」という返答に慣れており、時にはシステムがあなた自身よりもあなたのことをよく知っているように感じられることもあります。推奨システムはどのようにしてあなたの考えを「推測」するのでしょうか?

(文/ジョセフ・A・コンスタン&ジョン・リードル) 今日、オンラインで買い物をする人は、システムによって自分向けにパーソナライズされたおすすめを受け取ることに慣れています。 Netflix は、あなたが視聴したいと思われるビデオをおすすめします。 TiVo は番組を自動的に録画するので、興味のある番組を視聴できます。 Pandora は、ユーザーが聴きたい曲を予測して、パーソナライズされた音楽ストリームを生成します。

これらの推奨結果はすべて、さまざまな推奨システムから取得されます。彼らは、閲覧、検索、注文、好みに基づいて顧客が好み、購入する可能性のある製品を選択することで、コンピューター アルゴリズムを利用して消費者にサービスを提供します。レコメンデーション システムはもともと、オンライン小売業者の売上増加を支援するために設計されたものですが、現在では大規模かつ成長を続けるビジネスとなっています。同時に、レコメンデーション システムの開発は、1990 年代半ばには数十人が取り組んでいたものから、現在では大学、大手オンライン小売業者、およびこれらのシステムに注力する数十の企業で働く数百人の研究者にまで拡大しました。

レコメンデーションシステムは長年にわたって大きな進歩を遂げてきました。当初は比較的粗雑な機械で、行動に関する予測が不正確なことが多かったのですが、ウェブサイトのユーザーに関するデータの種類が増え、利用できるようになり、レコメンデーション システムがそのデータに革新的なアルゴリズムを適用できるようになると、急速に改善されました。今日、レコメンデーション システムは非常に複雑かつ洗練されており、ユーザー自身よりもユーザーのことをよく知っているように見えることがよくあります。一方、推薦システムは小売サイトを超えて拡大している。大学は学生のコース選択をガイドするために推薦システムを使用し、携帯電話会社はどのユーザーが他のプロバイダーに乗り換える可能性が高いかを予測するために推薦システムに依存し、会議主催者は論文を査読者に割り当てるために推薦システムの使用をテストしている。

私たち二人は、GroupLens プロジェクトの学術研究者としてスタートし、初期の頃からレコメンデーション システムの開発と研究を続けてきました。 GroupLens は 1992 年以来、アメリカの趣味フォーラム Web サイト Usenet のディスカッション フォーラムのメッセージを分類し、ユーザーが興味を持っているかもしれないがまだ発見していないトピックの手がかりをユーザーに示してきました。数年後、私たちは、第一次インターネットブーム(1997年~2000年)の時代に業界をリードした推奨アルゴリズム会社、Net Perceptionsを設立しました。それを念頭に置くと、Amazon や他のオンライン小売業者が自社の推奨システムの仕組みについて公に語ることはめったにないにもかかわらず、私たちの経験から、これらの企業の舞台裏で何が起こっているかについての洞察が得られます。 (この記事の分析は観察と推論に基づいており、内部情報は含まれていません)。

私たちが見たものは次のとおりです。

推奨アルゴリズムはどのようにして「あなたの好みを推測」するのでしょうか?

出典:recommenderapi.com

Amazon にとって、あなたはどのように見えるのか考えたことがありますか? 答えは、あなたは非常に大きな表の中の非常に長い数字の列だということです。この数字は、あなたがこれまでに Amazon.com で閲覧したすべてのもの、クリックしたすべてのリンク、購入したすべての商品を表しています。表の残りの部分は、Amazon で買い物をする何百万人もの他の人々を表しています。サイトにログインするたびに番号が変わります。この期間中は、サイト内を移動するたびに番号が変わります。この情報は、アクセスした各ページに表示される内容や、Amazon から受信するメールやオファーに影響します。

長年にわたり、レコメンデーション システムの開発者は、このすべてのデータを収集して解析するためにさまざまな方法を試してきました。最近では、ほとんどの人が Personalized Collaborative Recommender と呼ばれるアルゴリズムを使用することを選択しています。これは、Amazon、Netflix、Facebook の友達推薦、英国のポップミュージック ウェブサイト Last.fm のコア アルゴリズムでもあります。 「パーソナライズ」されているのは、アルゴリズムがユーザーのあらゆる行動(閲覧したページ、注文履歴、製品の評価)を追跡して推奨事項を作成するためであり、単なる運の問題ではないからです。このアルゴリズムは、商品の機能やキーワードを分析するのではなく、他の多くの顧客もそれらの商品を購入したり、それらの商品に好意を示したりしているという事実に基づいて、2 つの商品を関連があると判断するため、「相乗的」と呼ばれます。

さまざまな種類のパーソナライズされた共同推奨システムは、少なくとも 1992 年から存在しています。 GroupLens プロジェクトに加えて、もう 1 つの初期の推奨システムは MIT の Ringo です。これは、ユーザーの音楽プレイリストに基づいて、ユーザーが好みそうな他の音楽を推奨します。

ユーザー間アルゴリズム: ユーザー間の類似性を計算する

GroupLens と Ringo はどちらも、「ユーザー-ユーザー」アルゴリズムと呼ばれるシンプルな共同アルゴリズムを使用します。このタイプのアルゴリズムは、同じアイテムに対するユーザーの評価の類似性に基づいて、ユーザー間の「距離」を計算します。たとえば、ジムとジェーンが両方とも映画「トロン」に 5 を付けた場合、彼らの間の距離は 0 になります。ジムが続編の『トロン:レガシー』に 5 点を付け、ジェーンが 3 点しか付けなかった場合、両者の間の距離はさらに広がります。この計算によれば、お互いの趣味が比較的「近い」ユーザーが得られ、彼らを「近隣」を共有するユーザーと呼びます。

ただし、このユーザー関連付け戦略はあまりうまく機能しません。まず、意味のある近隣セットを形成するのは困難です。多くのユーザーは、お互いに共通の評価を数個しか持っていませんが、まったく持っていないユーザーもいます。また、両方のユーザーから評価されている数少ないプロジェクトは、基本的に誰もが好む大ヒット映画であることが多いです。さらに、ユーザー間の距離は急速に変化する可能性があるため、アルゴリズムはほとんどの計算をその場で実行する必要があります。これは、ユーザーが Web サイトのあちこちをクリックしてから次のアクションを実行する場合よりも時間がかかる可能性があります。

アイテム-アイテムアルゴリズム: アイテム間の関連性を計算する

その結果、今日のほとんどの推奨システムは、評価したユーザー間の類似性に基づいて 2 つの本、映画、またはその他のものの間の距離を計算するアイテム間アルゴリズムに依存しています。トム・クランシーの本が好きな人はクライヴ・カッスラーの作品にも高い評価を与える傾向があるため、クランシーの本とカッスラーの本は同じ地域にあります。アイテム間の距離は、何億人ものユーザーの評価に基づいて計算され、一定期間にわたって比較的安定する傾向があります。そのため、推奨システムは距離を事前に計算し、推奨結果をより迅速に生成できます。 Amazon と Netflix はどちらも、オブジェクト間関連付けアルゴリズムのバリエーションを使用していると公に述べていますが、詳細についてはどちらも明らかにしていません。

ユーザー関連付けアルゴリズムとオブジェクト間関連付けアルゴリズムの両方に共通する問題は、ユーザー評価の不一致です。再度評価する機会が与えられると、ユーザーは同じアイテムに対して異なるスコアを付けることがよくあります。好みは変わり、気分は変わり、印象は変わります。 1990 年代に MIT が実施した調査では、ユーザーの評価は最初の評価から 1 年ごとに平均 1 ポイント (7 点満点中) 変化することが示されました。研究者たちは、この変数をモデルに組み込むさまざまな方法も試みています。たとえば、ユーザーが製品にスコアを付けたが、このスコアが推奨アルゴリズムがユーザーと製品について知っている他のすべての情報と一致しない場合、一部の推奨アルゴリズムはユーザーに製品を再度評価するよう求めます。

次元削減アルゴリズム:物事の特性を一般化する

しかし、ユーザー関連付けアルゴリズムとモノとモノの関連付けアルゴリズムには、一貫性よりも大きな問題があります。それは、それらが厳格すぎることです。つまり、同じものを好む人を見つけることができますが、非常に類似した興味を持つユーザーの組み合わせの可能性は無視されます。例えば、あなたはモネの睡蓮が好きだとしましょう。では、フランス印象派の巨匠が描いた 250 枚の睡蓮のうち、どれが一番好きですか? モネが好きな人々のグループでも、各人がそれぞれ違う睡蓮を好む可能性は十分にあり、基本的なアルゴリズムではこれらの人々が共通の趣味を持っていることを認識できない可能性があります。

約 10 年前、研究者たちは次元削減と呼ばれるプロセスを通じて、物事をより一般的な方法で表現する方法を考案しました。このアプローチは、ユーザー関連付けやオブジェクト間関連付けアルゴリズムよりもはるかに計算負荷が高いため、すぐには採用されませんでした。しかし、コンピュータが高速化、低価格化するにつれて、次元削減アルゴリズムは徐々に進歩してきました。

次元削減アルゴリズムがどのように機能するかを理解するために、あなたが何を食べるのが好きで、それが他の 100 万人の人々が何を食べるのが好きかを比較してみましょう。この情報を巨大なマトリックスで表すことができます。各縦線は食品を表し、各人の好きな食品は自然に列を形成します。この行には、グリルステーキに 5 つ星、煮込みショートリブに 4 1/2 つ星、グリルチキンウィングに 2 つ星、冷凍豆腐ラップに 1 つ星、チーズ焼きマッシュルームに 5 つ星、塩味枝豆に 4 つ星、などと表示される場合があります。

ただし、このマトリックスを使用する推奨アルゴリズムでは、どの食品にいくつの星を付けたかは考慮されません。知りたいのは、あなたが一般的に何を好むかであり、その情報をより幅広い種類の食べ物に適用できるようにするためです。たとえば、上で提供した情報に基づいて、アルゴリズムは、あなたが牛肉、塩辛いもの、焼き物が好きで、鶏肉や揚げ物は好きではなく、野菜は好きでも嫌いでもない、などと推測する可能性があります。あなたの好きな食べ物が持つ特性や次元の数は、あなたの要件を満たす食べ物の数よりもはるかに少なく、おそらく多くても 50 か 100 程度でしょう。これらの側面をチェックすることで、推奨アルゴリズムは、この食品のさまざまな側面(塩辛い、牛肉で作られている、鶏肉ではない、揚げていない、野菜ではない、グリルされていない)をユーザーの情報と比較し、新しい食品(塩焼きスペアリブなど)がユーザーにとって好みかどうかをすばやく判断できます。このより一般的なプレゼンテーションにより、推奨アルゴリズムは、類似しているが異なる好みを持つユーザーを正確に検出できるようになります。さらに、行列のサイズが大幅に圧縮され、アルゴリズムがより効率的になります。

これは素晴らしい解決策です。しかし、お気に入りの食べ物の寸法はどこでわかるのでしょうか? シェフに尋ねるのは絶対に無理です。レコメンデーション システムは、特異値分解と呼ばれる数学的手法を使用して次元を計算します。このアプローチでは、最初の巨大なマトリックスを 2 つの「味覚マトリックス」に分解します。1 つはすべてのユーザーと 100 項目の味覚ディメンションを含み、もう 1 つはすべての食品と 100 項目の味覚ディメンションを含みます。さらに、最初の 2 つのマトリックスのいずれかを乗算すると、元のマトリックスになる 3 番目のマトリックスがあります。

上記の例とは異なり、計算で使用される次元は、説明的でも直感的でもまったくなく、純粋に抽象的な値です。値が最終的に正確な推奨事項を生成する限り、これは問題ありません。このアプローチの主な欠点は、顧客と製品の数が増えるにつれて、マトリックスの作成に必要な時間が急速に長くなることです。つまり、2 億 5,000 万人の顧客と 1,000 万の製品のマトリックスを作成するには、250,000 人の顧客と 10,000 の製品のマトリックスを作成するよりも 10 億倍の時間がかかります。そして、このプロセスは頻繁に繰り返す必要があります。新しい評価が受け取られるとすぐにマトリックスは古くなります。Amazon のような会社では、新しいレビューが毎秒受け取られます。幸いなことに、マトリックスは、多少時代遅れではあるものの、今でもかなり良いレベルで機能しています。研究者たちは、特異値分解に使用可能な近似値を提供し、計算時間を大幅に短縮する新しいアルゴリズムも設計しています。

Joseph A. Konstan 氏と John Riedl 氏は、ともにミネソタ大学のコンピューターサイエンスの教授です。 IEEE の上級会員である Konstan 氏と IEEE フェローである Riedl 氏は、MovieLens 推奨システムの作成に協力しました。次の記事では、2 人の著者が引き続き、推奨アルゴリズムが決して推奨しないものを紹介します。

訂正メモ:記事が最初に公開されたとき、最後から2番目の段落の特異値分解に関する内容が間違っていました。現在は訂正されており、ここに記載されています。 (2012-11-13)

出典: IEEE 技術概要 推奨システムの解体

記事画像: ieee.spectrum.org


元のタイトル: ウェブサイト推奨システム「Guess What You Like」は、あなたが何を考えているのかをどうやって推測するのでしょうか?

キーワード: ウェブサイト、推奨、システム、好きなものを推測する、方法、推測、あなたの心、人々、オンライン ショッピング、ウェブマスター、ウェブサイトのプロモーション、お金を稼ぐ

<<:  Mozilla、すべてのビデオ編集をウェブ上で行えるオンラインビデオ編集ツールをリリース

>>:  独身の日:百度Kステーション復旧の1ヶ月半の運用記録

推薦する

テキサスホールデムゲームは「ほぼ排除」されており、ゲーム市場の健全な発展には「厳格な監督」が伴わなければならない。

昨日、文化観光省がゲーム業界の主要企業15社と「報告会」を開催し、今後の「オンラインチェスおよびカー...

エッジコンピューティングの探究: Amazon と Facebook のユースケースを詳しく見る

翻訳者 |李睿レビュー |チョンロウモノのインターネットの急速な発展とリアルタイムのデータ処理に対す...

ウェブサイトとソフトウェアの共鳴が、冗長で反復的なウェブサイトコンテンツの受動的な状況をどのように変えることができるかについて話す

検索エンジンによるザクロアルゴリズムのリリース以来、多くのウェブサイトは高品質のページを再検索する道...

Red Hat: エンタープライズレベルのオープンソースはデジタル変革を支援し、情報技術イノベーションの構築に積極的に参加します

デジタルトランスフォーメーションが任意の質問から必須の質問に変わると、機会と課題が共存することになり...

どのような外部リンクがウェブサイトのランキングを向上させることができますか?

ウェブサイトの最適化は、「コンテンツは王、外部リンクは女王」という原則に従います。新しいウェブサイト...

HPEとGoogle Cloudが協力してハイブリッドクラウドソリューションを提供

2019 年 4 月 9 日、HPE と Google Cloud は、ハイブリッド クラウド ソリ...

Weiboマーケティングは適切に行われた場合にのみ効果的である

「食事はまずいし、散らかっていて、野菜は全部食べ尽くされている。みすぼらしい場所で、生活はとても憂鬱...

WordPress SEO を最適化する方法 (パート 4): URL の最適化

WordPress を使用して Web サイトを構築する初心者の多くは、ブログを設定した後、楽しく記...

月収2万元を稼ぐソフト記事シリーズから何を学ぶか

葉鋒が毎月2万元を稼ぐソフト記事4本シリーズは、今年これまでのA5で最も成功したソフト記事と言える。...

2020 TECHO PARK 開発者会議セキュリティフォーラムで最先端のセキュリティ技術を探りましょう。

デジタル経済の波は止められない勢いで世界を席巻しています。クラウドコンピューティング、5G、AI、ビ...

Python スクリプトを使用して OpenStack Overcloud の問題を発見する

[[314897]] LogTool は、オーバークラウド ノードの問題の根本原因を見つけるのに役立...

SEO外部要因の研究:SEOリソースの統合と最適化

みなさんこんにちは。私はMuzi Chengzhouです。 SEO に関しては、ウェブマスターが毎日...

gcoreはどうですか? gcore 香港 VPS 評価データ共有

gcoreはどうですか? gcore香港はどうですか? gcore は、中国香港で香港 VPS、香港...

モバイルモールシステムを構築する際にはどのような点に注意すべきでしょうか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますモバイルモ...

asp.net アドレス マッピング - 疑似静的

asp.net アドレス マッピングの定義は、ユーザーがアクセスする仮想アドレスにマップされた実際の...