コンテンツ推奨エンジンに関する簡単な説明 - 「コンテンツ アルゴリズム」の読書メモ

コンテンツ推奨エンジンに関する簡単な説明 - 「コンテンツ アルゴリズム」の読書メモ

3月に「コンテンツアルゴリズム」を読み、レコメンデーションエンジンについてより体系的に理解することができました。
興味深いことに、レコメンデーション エンジンは検索エンジンと多くの類似点があり、検索エンジンのアップグレードとも言えます。それで私はそれを整理して共有しました。

コンテンツ推奨エンジンとは何ですか?

コンテンツ推奨エンジンは、モバイルインターネットの登場以来の新しいタイプのコンテンツ製品です。従来の能動的コンテンツ取得形式を打ち破り、明示的な要求がなくてもユーザーの興味のあるコンテンツを提供し、新しいコンテンツエコシステムを構築します。
ユーザーの時間を多く奪うものの、ユーザーのニーズを探り、より高いレベルでユーザーにアプローチすることに非常に革新的で成功しています。すでに、Toutiao、Douyin、Xiaohongshu などの成功した製品があります。

推奨エンジンに関する予備的研究

一言で説明すると、レコメンデーションエンジンは、ユーザーポートレートに基づいて興味のあるコンテンツを推奨し、ユーザーの行動に基づいてユーザーポートレートを継続的に調整および改善します。
単純なモデルを取り上げ、Douyin が次のように私にラベルを付けると仮定します。

  • バスケットボール - 40%
  • ロードキング - 10%
  • ストリートダンス - 10%
  • 美容 - 10%
  • 家族 - 15%
  • 杭州 - 5%
  • 南京 - 5%
  • 風景 - 5%

すると、Tik Tokが私におすすめする動画コンテンツの中にも、上記のようなトピックの動画も表示され、私の興味関心の割合に応じて振り分けられるようになります。

技術アーキテクチャ

原画は本から直接撮りました。

一般的にはオフライン部分オンライン部分の2つの部分に分かれています。
オフライン部分は主にコンテンツの前処理であり、コンテンツの分類、ラベルの抽出、反転が含まれます。
オンライン部分は主に、ユーザーのポートレートに基づいてコンテンツを呼び出して並べ替え、ユーザーの行動に基づいてポートレートと並べ替えロジックを調整します。

レコメンデーションエンジンと検索エンジン

以下は、本から抜粋した検索システムのアーキテクチャであり、上図のレコメンデーション エンジンと比較することができます。

レコメンデーション エンジン (以下、RE と略記) と検索エンジン (以下、SE と略記) の類似点:
オフライン部分とオンライン部分を含め、全体的なアーキテクチャは同じです
オフライン部分は主にコンテンツの前処理、コンテンツの分類、コンテンツの逆順での並べ替えを行い、オンライン部分は主にクエリの呼び出しと並べ替えを行います。

建築における RE と SE の違い:

  1. クエリの側面。 SE はユーザーの検索用語をクエリとして使用しますが、RE はユーザー プロファイルとシナリオ (場所、デバイス、時間などを含む) をクエリとして使用します。
  2. コンテンツ取得。 SEはクローラーによってクロールされる必要があり、インターネット上のすべてのコンテンツが含まれます。REはユーザーが送信した後に直接取得でき、自分のシステムのコンテンツのみが含まれます。
  3. 反転処理。コンテンツの前処理では、SEは主に単語分割後のキーワードに依存し、REは主にタグ(エンティティ単語)に依存します。

製品に関して、RE と SE にはいくつかの違いがあります。

  1. SE はユーザーが能動的にコンテンツを取得する段階であり、ユーザーに需要がある段階のみです。一方、RE はユーザーが受動的に情報を取得する段階であり、主にユーザーに明確な需要がない段階をカバーします。この段階はより長く、トラフィックが多くなります。
  2. SEはインターネット全体を対象としているため、情報だけでなく、ダウンロード、ショッピング、ナビゲーションなどのさまざまな機能を備えています。一方、REは製品自体のシステムのみを対象としており、依然として情報に重点を置いており、機能は比較的少ないです(現在ではミニプログラムを使用して機能を満たすこともできます)。

ラベル

主にコンテンツのラベル付けとユーザーのラベル付けが含まれます。

コンテンツタグ

コンテンツのラベル付けは、推奨エンジンがコンテンツ、特にラベルに大きく依存する動画、音楽、画像など、正確に識別できないコンテンツを理解するのに役立ちます。制作形式にはPGCUGCの2種類があります。
以下は Douban の書籍のラベルです。

ユーザーのタグ

ユーザー タグは、推奨エンジン検索のクエリとして使用され静的動的の2 つの形式で利用できます。
静的タグは、年齢、性別、学歴、教育レベルなどのユーザー自身の属性です。比較的固定されており、更新頻度も低くなります。
動的タグは、バスケットボールへの関心や居住地域など、ユーザーの関心やシナリオのタグです。これらのタグは頻繁に変更され、頻繁に更新されます。
一般的なユーザーポートレートデータは次のとおりです。

  • 位置情報。例えば、Dianpingアプリは、近くの食べ物やその他のコンテンツを提供するためにユーザーの位置情報を必要とします。
  • 情報を検索します。 Taobao はユーザーの最近の検索に基づいて推奨商品を調整し、各ユーザーにとって主要な情報源の 1 つとなっています。
  • ユーザーの評価、お気に入り、共有、コメントなど。これらは典型的なユーザー行動であり、ユーザー プロファイルにさまざまな程度で影響を与えます。

Google にはユーザーを整理するためのタグもあり、ここで確認できます。私のタグの一部を以下に示します。

推奨エンジンの応用

友人の中には、レコメンデーション エンジンは Toutiao や Douyin などの典型的な製品でのみ使用されていると考えている人もいます。実際には、コンテンツ レコメンデーション エンジンの応用範囲は非常に広く、ほとんどのインターネット製品にアプリケーションが含まれていると言っても過言ではありません。レコメンデーションエンジンにはいくつかの応用形態があります。

  • 独立したアプリ。これは説明するまでもありません。Toutiao 、Douyinなどは、レコメンデーションエンジンに完全に依存する典型的な製品です

  • 推奨モジュール。代表的な製品: WeChatの「Look」 。ユーザーの行動や閲覧履歴に基づいて関連コンテンツを提供するというのは、WeChat の単なるモジュールです。
  • 推奨ロジック。代表的な製品: Taobao の何千もの人物の顔。商品の推奨はユーザーポートレートに基づいて提供され、APPホームページや検索ページなどのすべての推奨領域をカバーします。

コンテンツ配信ロジック

コンテンツの配信方法は常に進化しています。基本的には編集配信(集中型、人間が主体)、ソーシャル配信(分散型、人間が主体)、アルゴリズム配信(機械が主体)に分かれており、これについては別の記事で説明しました。

  • 配布を編集します。主に編集者によって編集されており、新聞、ラジオ、ポータルサイトの形で、ユーザーが目にするのは編集者が編集したコンテンツです。
  • 社会的分配。主にフォローに基づいています。ユーザーは、主にWeiboやWeChat Momentsの形式で、フォローしているブロガーのコンテンツを閲覧します。
  • アルゴリズムの配布。アルゴリズムは、ユーザー ポートレートに基づいて対応するコンテンツを推奨します。つまり、アルゴリズムはユーザー ポートレートに完全に依存し、推奨エンジンに完全に依存します。

今日のレコメンデーション エンジンは、実際にはアルゴリズムに完全に依存しているわけではなく、編集配信やソーシャル配信の要素も取り入れていますが、影響を与える要素は異なります。

  • 例えば、Tik Tokでは、自分がその話題にあまり注目していないにもかかわらず、大物Vの動画をよく見かけ、たくさんのいいねやコメントを獲得しています。これは主に編集と配布によって影響を受けます。
  • たとえば、Tik Tok では、友達が投稿した動画が表示されますが、いいねの数が多くなかったり、0 個だったりすることもあります。これは主に社会的な分配によって影響を受けます。

レコメンデーションエンジンの欠点

レコメンデーション エンジンは何度も検証に成功していますが、依然として明らかな欠点があります。

  • クリックベイトの見出しが横行している。典型的なシナリオは、WeChatの家族グループです。そこでは、「注意:冷蔵庫の食品は発がん性物質になりますか?これらの3つの食品は絶対に冷蔵庫に入れないでください!」など、さまざまなクリックベイトの見出しが横行しています。 CTR は推奨エンジンでの表示に影響する要素であるため、クリックベイトのタイトルが盛んに使用され、悪貨が良貨を駆逐する原因にもなっています。高品質の記事は、トラフィックを集めるために「非常に低い」タイトルを使用する必要があります。
  • 情報繭。人々がますます、自分たちの興味のある情報の世界に生きるようになっていることは、共通の懸念事項です。実際に、推奨エンジンにはポートレートを改善するためのメカニズムがあり、ポートレートを改善して情報サークルを拡大するために、新しいトピックに関するコンテンツを推奨します。しかし、実際の効果はそれほど理想的ではなく、少なくともモデルの長期的なトレーニングが必要です。
  • アルゴリズムは占いです。アルゴリズムには一般的に欠点があり、何かを行うことによる効果は良いと判断できても、なぜ良いのかを説明できないのです。同僚の言葉を借りれば、「アルゴリズムは占いのようなもの」です。つまり、効果の理由を説明することは不可能であり、それを蓄積して再利用することは不可能です。 (主にウェブサイト運営者向け)
  • 人間の弱点を悪用する。レコメンデーション エンジンがユーザーのニーズを調査すると、ユーザーが最も関心を持っているのは人間性に関するコンテンツであることが分かります。「七つの大罪」によると、それは傲慢、嫉妬、憤怒、怠惰、強欲、暴食、色欲です。したがって、対応するコンテンツは「同じく 80 年代以降の世代で、ランボルギーニを運転するのに 3 年かかりました」、「2019 年! 「中国が米国を追い抜く最初の年」「職場のエリート必携!これら 5 つのツールを使用すると、効率が少なくとも 50% 向上することが保証されます」、「ドラゴンのバストのサイズは、シーズン 1 からシーズン 8 まで変化しました」、「200 元から開始! 「世界で最も安いミシュランレストランのリスト。」健康、教育、中年の危機、職場などに対する不安によって引き起こされる消費は言うまでもありません。
  • 時間をつぶす。コンテンツ推奨システムがユーザーのニーズを理解し、それを満たすにつれて、ユーザーの間では、爽快で軽く満足できる体験の精神が徐々に形成されてきました。製品が現在時間を隠蔽し、コンテンツを断片化していることと相まって、ユーザーは断片化された時間を費やすだけでなく、時間を忘れてしまいます。例えば、TikTokでは、視聴を終えた後に気がつくともうかなり遅い時間だったという経験をしたことがあるユーザーがほとんどです。

要約する

この記事の内容を要約すると次のようになります。

  • レコメンデーションエンジンは、ユーザーポートレートに基づいて興味のあるコンテンツを推奨し、ユーザーの行動に基づいてユーザーポートレートを継続的に調整および改善します。
  • 検索エンジンと比較すると、レコメンデーションエンジンは全体的なアーキテクチャは同じですが、クエリ、コンテンツ取得、逆処理の点で異なります。情報の取得方法、ユーザーカバレッジパス、コンテンツカバレッジの点で異なります
  • 推奨エンジンはコンテンツとユーザーにラベルを付けます。コンテンツ タグには、UGC と PGC の 2 つの制作形式があります。ユーザー タグには、動的タグと静的タグの 2 種類があります。
  • 推奨エンジンは、独立型アプリ、推奨モジュール、推奨ロジックの3つの形式で広く使用されています。例としては、Toutiao、WeChatの「Look」、Taobaoの「Thousands of Faces」の3つがあります。
  • コンテンツ配信には、編集配信、ソーシャル配信、アルゴリズム配信の 3 つのロジックがあります。実際の製品では、通常、リコールとソートのためにこれら 3 つのロジックを組み合わせています
  • レコメンデーション エンジンには、クリックベイトのタイトル、情報の繭、占いのようなアルゴリズム、人間の弱点の悪用、時間をつぶすなどの明らかな欠点があります

議論トピック

最後に、皆さんと議論したいもう一つのトピックがあります。
SEO はレコメンデーション エンジンの台頭の時代にどう適応するのでしょうか?
たとえば、Baidu が Xiong Zhanghao をサポートすれば、必然的にトラフィックの一部がウェブマスターから公開アカウントのブロガーに移行することになるでしょう。
どなたでも議論のためのメッセージを残していただけます。素晴らしいコメントは掲載させていただきます。

元のタイトル: コンテンツ推奨エンジンに関する簡単な説明 - 「コンテンツ アルゴリズム」に関する読書メモ

キーワード:

<<:  SEO成長フォーミュラを持つSEO成長ハッカーと呼んでください

>>:  インターネット情報取得方法の進化とそれがSEOに与える影響について簡単に説明します。

推薦する

Mituo テンプレート: 運転学校のウェブサイト テンプレートの推奨

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています現代人の車...

myserverplanet-$3.8/年/256Mメモリ/7gハードディスク/500Gトラフィック/

myserverplanet(登録会社、会社番号09159619)がまた役に立つ情報を出してきました...

タオバオ店舗運営における厳しい需要について(第3部)

ユーザーエクスペリエンスは、Taobao ストア運営において厳格な要求事項なのでしょうか? マクロ的...

Weiboマーケティングのためのコンテンツ戦略

「マーケティングでは、コンテンツが王様です。」コンテンツ戦略について話すときは、コンテンツ マーケテ...

ウェブサイトの包含率を迅速に向上させる方法に関する本当の内部情報

インターネット上の情報量が増加するにつれて、検索エンジンがさまざまなウェブサイトからウェブページを収...

vSAN ストレッチ クラスタのさまざまな構成オプションにはどのようなものがありますか?

[[207428]] vSAN 6.6 では、VMware は新しいストレッチ クラスタ構成オプショ...

Panguは本日合併を発表した。周希勝氏がCEOに就任する。鄧亜平氏の所在は不明。

網易科技ニュース、8月1日、網易科技は独占的に、Pangu SearchとJikesouが本日10時...

エッジ コンピューティング ワークロード: VM、コンテナー、それともベアメタル?

私たちはコネクティビティとスマートデバイスの時代に生きています。スマートデバイスの数が増加するにつれ...

PIAYUN:国慶節特別オファー、香港\米国クラウドサーバー、CN2回線、月額20元から、時間は2倍

今年の国慶節に向けて、Piayunは香港クラウドサーバーと米国クラウドサーバーの限定版をリリースしま...

医療現場への相談の持ち込み方!

前回の記事「医療業界の SEO が難しい理由」に続き、今回のブログ投稿では主に医療サイトの最適化方法...

海外のサーバーを低価格でレンタルするとリスクが高まる可能性がある

近年、国際インターネットデータセンターの急速な発展に伴い、海外のIDCが中国に進出し、急速に一定の市...

sharktech: 60G 高防御サーバー (物理マシン)、月額 99 ドル、1Gbps 帯域幅、無制限トラフィック、305 ドル、10Gbps 帯域幅、無制限トラフィック

米国の無制限コンテンツサービスであるSharktechは、現在から7月31日まで、ロサンゼルス、シカ...