3月に「コンテンツアルゴリズム」を読み、レコメンデーションエンジンについてより体系的に理解することができました。 興味深いことに、レコメンデーション エンジンは検索エンジンと多くの類似点があり、検索エンジンのアップグレードとも言えます。それで私はそれを整理して共有しました。 コンテンツ推奨エンジンとは何ですか?コンテンツ推奨エンジンは、モバイルインターネットの登場以来の新しいタイプのコンテンツ製品です。従来の能動的コンテンツ取得形式を打ち破り、明示的な要求がなくてもユーザーの興味のあるコンテンツを提供し、新しいコンテンツエコシステムを構築します。 ユーザーの時間を多く奪うものの、ユーザーのニーズを探り、より高いレベルでユーザーにアプローチすることに非常に革新的で成功しています。すでに、Toutiao、Douyin、Xiaohongshu などの成功した製品があります。 推奨エンジンに関する予備的研究一言で説明すると、レコメンデーションエンジンは、ユーザーポートレートに基づいて興味のあるコンテンツを推奨し、ユーザーの行動に基づいてユーザーポートレートを継続的に調整および改善します。 単純なモデルを取り上げ、Douyin が次のように私にラベルを付けると仮定します。 - バスケットボール - 40%
- ロードキング - 10%
- ストリートダンス - 10%
- 美容 - 10%
- 家族 - 15%
- 杭州 - 5%
- 南京 - 5%
- 風景 - 5%
すると、Tik Tokが私におすすめする動画コンテンツの中にも、上記のようなトピックの動画も表示され、私の興味関心の割合に応じて振り分けられるようになります。 技術アーキテクチャ原画は本から直接撮りました。 一般的にはオフライン部分とオンライン部分の2つの部分に分かれています。 オフライン部分は主にコンテンツの前処理であり、コンテンツの分類、ラベルの抽出、反転が含まれます。 オンライン部分は主に、ユーザーのポートレートに基づいてコンテンツを呼び出して並べ替え、ユーザーの行動に基づいてポートレートと並べ替えロジックを調整します。 レコメンデーションエンジンと検索エンジン以下は、本から抜粋した検索システムのアーキテクチャであり、上図のレコメンデーション エンジンと比較することができます。
レコメンデーション エンジン (以下、RE と略記) と検索エンジン (以下、SE と略記) の類似点: オフライン部分とオンライン部分を含め、全体的なアーキテクチャは同じです。 オフライン部分は主にコンテンツの前処理、コンテンツの分類、コンテンツの逆順での並べ替えを行い、オンライン部分は主にクエリの呼び出しと並べ替えを行います。 建築における RE と SE の違い: - クエリの側面。 SE はユーザーの検索用語をクエリとして使用しますが、RE はユーザー プロファイルとシナリオ (場所、デバイス、時間などを含む) をクエリとして使用します。
- コンテンツ取得。 SEはクローラーによってクロールされる必要があり、インターネット上のすべてのコンテンツが含まれます。REはユーザーが送信した後に直接取得でき、自分のシステムのコンテンツのみが含まれます。
- 反転処理。コンテンツの前処理では、SEは主に単語分割後のキーワードに依存し、REは主にタグ(エンティティ単語)に依存します。
製品に関して、RE と SE にはいくつかの違いがあります。 - SE はユーザーが能動的にコンテンツを取得する段階であり、ユーザーに需要がある段階のみです。一方、RE はユーザーが受動的に情報を取得する段階であり、主にユーザーに明確な需要がない段階をカバーします。この段階はより長く、トラフィックが多くなります。
- SEはインターネット全体を対象としているため、情報だけでなく、ダウンロード、ショッピング、ナビゲーションなどのさまざまな機能を備えています。一方、REは製品自体のシステムのみを対象としており、依然として情報に重点を置いており、機能は比較的少ないです(現在ではミニプログラムを使用して機能を満たすこともできます)。
ラベル主にコンテンツのラベル付けとユーザーのラベル付けが含まれます。 コンテンツタグコンテンツのラベル付けは、推奨エンジンがコンテンツ、特にラベルに大きく依存する動画、音楽、画像など、正確に識別できないコンテンツを理解するのに役立ちます。制作形式にはPGCとUGCの2種類があります。 以下は Douban の書籍のラベルです。 ユーザーのタグユーザー タグは、推奨エンジン検索のクエリとして使用され、静的と動的の2 つの形式で利用できます。 静的タグは、年齢、性別、学歴、教育レベルなどのユーザー自身の属性です。比較的固定されており、更新頻度も低くなります。 動的タグは、バスケットボールへの関心や居住地域など、ユーザーの関心やシナリオのタグです。これらのタグは頻繁に変更され、頻繁に更新されます。 一般的なユーザーポートレートデータは次のとおりです。 - 位置情報。例えば、Dianpingアプリは、近くの食べ物やその他のコンテンツを提供するためにユーザーの位置情報を必要とします。
- 情報を検索します。 Taobao はユーザーの最近の検索に基づいて推奨商品を調整し、各ユーザーにとって主要な情報源の 1 つとなっています。
- ユーザーの評価、お気に入り、共有、コメントなど。これらは典型的なユーザー行動であり、ユーザー プロファイルにさまざまな程度で影響を与えます。
Google にはユーザーを整理するためのタグもあり、ここで確認できます。私のタグの一部を以下に示します。 推奨エンジンの応用友人の中には、レコメンデーション エンジンは Toutiao や Douyin などの典型的な製品でのみ使用されていると考えている人もいます。実際には、コンテンツ レコメンデーション エンジンの応用範囲は非常に広く、ほとんどのインターネット製品にアプリケーションが含まれていると言っても過言ではありません。レコメンデーションエンジンにはいくつかの応用形態があります。 - 独立したアプリ。これは説明するまでもありません。Toutiao 、Douyinなどは、レコメンデーションエンジンに完全に依存する典型的な製品です。
- 推奨モジュール。代表的な製品: WeChatの「Look」 。ユーザーの行動や閲覧履歴に基づいて関連コンテンツを提供するというのは、WeChat の単なるモジュールです。
- 推奨ロジック。代表的な製品: Taobao の何千もの人物の顔。商品の推奨はユーザーポートレートに基づいて提供され、APPホームページや検索ページなどのすべての推奨領域をカバーします。
コンテンツ配信ロジックコンテンツの配信方法は常に進化しています。基本的には編集配信(集中型、人間が主体)、ソーシャル配信(分散型、人間が主体)、アルゴリズム配信(機械が主体)に分かれており、これについては別の記事で説明しました。 - 配布を編集します。主に編集者によって編集されており、新聞、ラジオ、ポータルサイトの形で、ユーザーが目にするのは編集者が編集したコンテンツです。
- 社会的分配。主にフォローに基づいています。ユーザーは、主にWeiboやWeChat Momentsの形式で、フォローしているブロガーのコンテンツを閲覧します。
- アルゴリズムの配布。アルゴリズムは、ユーザー ポートレートに基づいて対応するコンテンツを推奨します。つまり、アルゴリズムはユーザー ポートレートに完全に依存し、推奨エンジンに完全に依存します。
今日のレコメンデーション エンジンは、実際にはアルゴリズムに完全に依存しているわけではなく、編集配信やソーシャル配信の要素も取り入れていますが、影響を与える要素は異なります。 - 例えば、Tik Tokでは、自分がその話題にあまり注目していないにもかかわらず、大物Vの動画をよく見かけ、たくさんのいいねやコメントを獲得しています。これは主に編集と配布によって影響を受けます。
- たとえば、Tik Tok では、友達が投稿した動画が表示されますが、いいねの数が多くなかったり、0 個だったりすることもあります。これは主に社会的な分配によって影響を受けます。
レコメンデーションエンジンの欠点レコメンデーション エンジンは何度も検証に成功していますが、依然として明らかな欠点があります。 - クリックベイトの見出しが横行している。典型的なシナリオは、WeChatの家族グループです。そこでは、「注意:冷蔵庫の食品は発がん性物質になりますか?これらの3つの食品は絶対に冷蔵庫に入れないでください!」など、さまざまなクリックベイトの見出しが横行しています。 CTR は推奨エンジンでの表示に影響する要素であるため、クリックベイトのタイトルが盛んに使用され、悪貨が良貨を駆逐する原因にもなっています。高品質の記事は、トラフィックを集めるために「非常に低い」タイトルを使用する必要があります。
- 情報繭。人々がますます、自分たちの興味のある情報の世界に生きるようになっていることは、共通の懸念事項です。実際に、推奨エンジンにはポートレートを改善するためのメカニズムがあり、ポートレートを改善して情報サークルを拡大するために、新しいトピックに関するコンテンツを推奨します。しかし、実際の効果はそれほど理想的ではなく、少なくともモデルの長期的なトレーニングが必要です。
- アルゴリズムは占いです。アルゴリズムには一般的に欠点があり、何かを行うことによる効果は良いと判断できても、なぜ良いのかを説明できないのです。同僚の言葉を借りれば、「アルゴリズムは占いのようなもの」です。つまり、効果の理由を説明することは不可能であり、それを蓄積して再利用することは不可能です。 (主にウェブサイト運営者向け)
- 人間の弱点を悪用する。レコメンデーション エンジンがユーザーのニーズを調査すると、ユーザーが最も関心を持っているのは人間性に関するコンテンツであることが分かります。「七つの大罪」によると、それは傲慢、嫉妬、憤怒、怠惰、強欲、暴食、色欲です。したがって、対応するコンテンツは「同じく 80 年代以降の世代で、ランボルギーニを運転するのに 3 年かかりました」、「2019 年! 「中国が米国を追い抜く最初の年」「職場のエリート必携!これら 5 つのツールを使用すると、効率が少なくとも 50% 向上することが保証されます」、「ドラゴンのバストのサイズは、シーズン 1 からシーズン 8 まで変化しました」、「200 元から開始! 「世界で最も安いミシュランレストランのリスト。」健康、教育、中年の危機、職場などに対する不安によって引き起こされる消費は言うまでもありません。
- 時間をつぶす。コンテンツ推奨システムがユーザーのニーズを理解し、それを満たすにつれて、ユーザーの間では、爽快で軽く満足できる体験の精神が徐々に形成されてきました。製品が現在時間を隠蔽し、コンテンツを断片化していることと相まって、ユーザーは断片化された時間を費やすだけでなく、時間を忘れてしまいます。例えば、TikTokでは、視聴を終えた後に気がつくともうかなり遅い時間だったという経験をしたことがあるユーザーがほとんどです。
要約するこの記事の内容を要約すると次のようになります。 - レコメンデーションエンジンは、ユーザーポートレートに基づいて興味のあるコンテンツを推奨し、ユーザーの行動に基づいてユーザーポートレートを継続的に調整および改善します。
- 検索エンジンと比較すると、レコメンデーションエンジンは全体的なアーキテクチャは同じですが、クエリ、コンテンツ取得、逆処理の点で異なります。情報の取得方法、ユーザーカバレッジパス、コンテンツカバレッジの点で異なります。
- 推奨エンジンはコンテンツとユーザーにラベルを付けます。コンテンツ タグには、UGC と PGC の 2 つの制作形式があります。ユーザー タグには、動的タグと静的タグの 2 種類があります。
- 推奨エンジンは、独立型アプリ、推奨モジュール、推奨ロジックの3つの形式で広く使用されています。例としては、Toutiao、WeChatの「Look」、Taobaoの「Thousands of Faces」の3つがあります。
- コンテンツ配信には、編集配信、ソーシャル配信、アルゴリズム配信の 3 つのロジックがあります。実際の製品では、通常、リコールとソートのためにこれら 3 つのロジックを組み合わせています。
- レコメンデーション エンジンには、クリックベイトのタイトル、情報の繭、占いのようなアルゴリズム、人間の弱点の悪用、時間をつぶすなどの明らかな欠点があります。
議論トピック最後に、皆さんと議論したいもう一つのトピックがあります。 SEO はレコメンデーション エンジンの台頭の時代にどう適応するのでしょうか? たとえば、Baidu が Xiong Zhanghao をサポートすれば、必然的にトラフィックの一部がウェブマスターから公開アカウントのブロガーに移行することになるでしょう。 どなたでも議論のためのメッセージを残していただけます。素晴らしいコメントは掲載させていただきます。 元のタイトル: コンテンツ推奨エンジンに関する簡単な説明 - 「コンテンツ アルゴリズム」に関する読書メモ キーワード: |