Toutiaoを例に挙げて: 推奨戦略について

Toutiaoを例に挙げて: 推奨戦略について

推薦について

まず、読者がこの記事をよりよく理解できるように、著者はToutiao(携帯電話に「Toutiao」APPをダウンロードすることをお勧めします。また、Toutiaoアカウントを登録してバックグラウンドでログインすることをお勧めします)を例に、コンテンツの推奨(配信)に関連するいくつかの「乾物」を出力します。

タイトルに戻りますが、推奨とは何でしょうか?

一言で言えば、「類は友を呼ぶ」です。

では、物とは何であり、人間とは何なのでしょうか?

回答:モノとはコンテンツ(記事・画像・動画など)であり、ヒトとはユーザー(Toutiaoを閲覧するユーザー)です。

では、機械はどのようにしてコンテンツと人物がどのカテゴリに属しているかを認識するのでしょうか (オブジェクトによって人物を識別する)?

もう一つの答え: 「コンテンツ ポートレート」と「ユーザー ポートレート」の構築、そして推奨プロセスは実際にはユーザーとコンテンツを一致させることです。

では、「コンテンツ ポートレート」と「ユーザー ポートレート」とは何でしょうか?機械はどのようにしてこの 2 つを正確に構築し、一致させるのでしょうか?

コンテンツポートレート

コンテンツ ポートレートとは、簡単に言えば、コンテンツの特徴のことです。コンテンツが視覚化されている場合、私はそれがコンテンツ ファンネルであると想定することを好みます (逆三角形のユーザー ファンネルに似ていますが、表示される関係は必ずしも階層関係ではありません。図 1 を参照)。最初のレイヤーは通常、コンテンツの垂直分野(大きなカテゴリ) を表しますが、次のレイヤーは、タグ/キーワード/主題用語などの小さなカテゴリとして大まかに表すことができます。

(図2:Baiduの画像、テキストは無視され、画像のみが表示されます)

コンテンツファネルには多くのレイヤーがあることを考慮して、理解を容易にするために、ユーザーが直感的に認識できるレイヤーについて簡単に説明します。最も目を引くのは最初のレイヤーでしょう。これは通常、テクノロジー、エンターテインメント、スポーツなど、Toutiao(今日のToutiaoを指す)内の垂直カテゴリ(垂直分野)を指します。

たとえば、私が昨日投稿したソフト広告は、機械によって「テクノロジー」分野の記事として識別されました。このコンテンツの最初のレイヤーはテクノロジーであり、通常は機械によるラベル付け(NLPテクノロジーを含む:テキスト分類、固有表現認識など)、手動入力(伝説的な「タグ付け」の主な形式)、またはPUGC作成者(総称してToutiaoアカウント)がコンテンツを公開するときにフィールド選択を行うことです。ただし、現在ではコンテンツを公開するときに選択を行う必要はありません。

当然ながら、コンテンツの一般的なカテゴリを知るだけでは、ユーザーの興味のあるコンテンツを正確に推奨することはできません。ここでもう 1 つ説明させてください。実はこれもタグ付けの一種 (NLP 技術: テキスト トピック/キーワード抽出) ですが、プラットフォームはユーザーの好みに基づいてコンテンツをさらに絞り込みます。上記の記事を例にとると、対応するサブタグには vivo、携帯電話、テクノロジーなどが含まれます。

もちろん、このコンテンツ ファネルは、これら 2 つのレイヤーよりもはるかに多く、実際にはさまざまな細分化があります。たとえば、上記の記事を続けると、ファネルは次のようになります。テクノロジー -> 携帯電話 -> Android -> vivo -> vivo フラッグシップ フォン -> vivo NEX -> vivo NEX デュアル スクリーン バージョン。サプライズを細分化すればするほど、コンテンツ ポートレートは明確になり、推奨もより正確になります。もちろん、技術的な難易度も高くなります。

そのため、Toutiao の強力なライバルの 1 つである Yidian Zixun は、365 万のパーソナライズされたサブスクリプション チャネルを持っていると主張しており、その背後にある推奨アルゴリズム チームがいかに強力であるかが想像できます。

もちろん、コンテンツ ポートレートには、コンテンツの特性に加えて、そのコンテンツを公開するユーザーの品質、人気、独創性、重みなども含まれます。この重みは、Toutiao アカウントによって公開された記事に対する Toutiao の推奨重みを指します (コンテンツのコールド スタート推奨の数と、その後の推奨のボーナスについての詳細)。

推薦の重みについて言えば、Toutiaoの著者が初心者/オリジナルレビューに合格できるようにするために、プラットフォームにはToutiao Index(図6を参照)という定量的な指標があったことを言及する必要があります。このToutiao Indexは、実際にはプラットフォームがToutiaoに与えたスコアとして理解でき、Toutiaoが公開したコンテンツの推薦の重みを決定します。 Toutiao 指数の評価基準には、独創性、垂直性、注目度、健全性、普及性の 5 つの側面が含まれます (図 7 を参照)。ただし、Toutiao アカウントの Web バージョンのバックエンドでは表示されなくなりましたが、モバイル バージョンではまだ表示されます。

(図7:2017年6月26日の筆者のToutiaoアカウントの背景)

ユーザープロフィール

ユーザーポートレートとは何ですか?つまり、これは、ユーザーの(明示的および暗黙的な)基本特性(性別、教育、年齢、居住地など)と興味(バスケットボールファン、デジタルオタク、アニメファンなど)から構築された「属性グラフ」(技術的には通常「ナレッジグラフ」と呼ばれます)です。

たとえば、私たちは通常、機械によって次のようなデータの組み合わせにラベル付けされます (図 9 を参照)。テクノロジー | 20%、スポーツ | 10%、エンターテイメント | 30、健康 | 5%...

(図9: ユーザーポートレートの例、出典: コンテンツアルゴリズム)

そこで疑問になるのが、マシンはどのようにしてユーザーのプロフィールを知るのかということです。

まず、ユーザーは新規ユーザーと既存ユーザーの 2 つのカテゴリに分けられます。前者は、ユーザー ポートレートの構築 (戦略的な製品インタビューで尋ねられる) における一般的な難しいポイント、つまり (ユーザーの) コールド スタートに関係します。通常、面接官は、ユーザーのコールド スタートをどのように行うのかを尋ねます。

一般的な答えは次のとおりです。

まず、新しいユーザーがアプリを開くと、好きな分野を選択するように求められます。次に、絶対的なコールドスタートはなく、他のアプリでのユーザーの行動が実際に監視されます。たとえば、Taobaoでスニーカーを見ている場合、見出しを開いてニュースを閲覧すると、今見たスニーカーの広告が表示されます。つまり、アプリを開いた瞬間に、スポーツ|バスケットボールというより明らかな属性の1つが取得されます。 3 番目に、マシンは通常、現在ホットなコンテンツ (テクノロジー分野 | iPhone が新製品を発売、エンターテイメント分野 | 王峰が話題になど) を推奨します。これらのコンテンツでのユーザー行動 (クリック、いいね、再投稿、ポップアップ、滞在時間など) を通じて、マシンは画面の前にいるあなたに対する「第一印象」を得ます。

さまざまな分野のコンテンツにおけるユーザーの行動を通じて、コンテンツに対するユーザーの関心を判断し、予備的なユーザー ポートレートを構築することができます (これは、一般的に使用されるユーザー コールド スタート メソッドです)。たとえば、Toutiao を開くと、コールド スタートとして 12 個のコンテンツ (NBA 3 個 + エンターテイメント 3 個 + テクノロジー 3 個 + 食品 3 個) がプッシュされ、その後、スポーツ 3 個、デジタル 2 個、エンターテイメント 1 個をクリックします...

すると、初期のユーザーポートレート(V1.0)は、スポーツ|30%、デジタル分野|20%、エンターテインメント分野|10%、その他の分野|20%となるでしょう。ユーザーは、スポーツが好きで、技術オタクな男性であると推定されます。そして、2 つのスポーツ コンテンツが神戸に関連していることもわかりました。つまり、あなたは男性の神戸ファンであり、デジタル中毒者である可能性が高いということです。

その後、あなたは常連ユーザーになります。Toutiao を使用する回数が増えるほど、生成されるユーザー行動データが増え、その背後にあるモデルは「よりスマート」になるようにトレーニングされます。スワイプするほど、ユーザーポートレートは変化し続け、より詳細かつ正確になります。

推奨方法

最後に、機械がユーザーとコンテンツのポートレートを正確に構築した後、どのように推奨を行うのでしょうか?

実際のところ、これはマッチング操作です。もちろん、単に「マッチング」と言うだけでは不十分だと思います。なぜなら、これら 2 つのユーザー ポートレートとコンテンツ ポートレート (相関特性) に加えて、マシンはモデルをトレーニングする際に、人気特性 (グローバル人気、分類人気など)、コラボレーション特性 (類似ユーザー、興味分類ユーザーなど)、環境特性 (時間、地理的位置など) も考慮するからです。詳細については、図 10 を参照してください。

(図10:出典記事「今日のヘッドラインアルゴリズム原理(全文)」)

次に、図 6 に示すように、マシンがこれらの特徴を学習した後、推奨モデルは継続的に更新されます (正確には、モデルのパラメータが更新されます。たとえば、バックプロパゲーションを実行するときに、ニューラル ネットワークの関連する重みパラメータが各反復で変更されます)。最後に、マシンによって異なるユーザーに提示されるコンテンツも、これらの特徴の違いにより、同じタイプのユーザーであっても異なります。これは、いわゆる「千人の千人の顔」(電子商取引プラットフォームで最初に使用) です。コンテンツ「消費」プラットフォームとして、これは主にコンテンツの配信を指します。

では、コンテンツ配信をより正確にするにはどうすればいいのでしょうか?

ここでは、リコールとソートという 2 つの用語について言及する必要があります。ここで説明するのは難しいです。簡単に言うと、リコールはコンテンツとユーザーラベルの一致度合いに大きく依存しますが、ソートにはユーザーの興味傾向、つまりより細かいマッチング問題が関係します。適切なコンテンツが適切な場所に配置されるようにする必要があるためです。

たとえば、私はデジタルオタクなので、12 個の記事が私に送られてきたら、最初の 1 つはエンターテイメントではなくデジタルに関するものであることを望みます。ランキングは、推奨戦略の優秀さを反映することがよくあります。ユーザーが興味のあるコンテンツにできるだけ早くアクセスできるようにすることでのみ、より多くの保持、アクティベーション、およびコンバージョンを生み出すことができるからです (これにより、プラットフォームが広告やその他の商業活動をプッシュしやすくなります)。

もちろん、AI時代にモデルのパフォーマンス、あるいは私たちのレコメンデーションシステム(機械学習モデルとも捉えられる)のパフォーマンスを決めるのは、アルゴリズムそのものだけでなく、コンピューティングパワー(コンピューターのコンピューティングパワーを指す。この点、Toutiaoと競合他社は差を広げることはできない。これはお金で解決できる問題だからだ)であり、もうひとつの鍵となるのはデータ(高品質なデータ)である。

データの重要性は、科学研究で私を指導してくれた博士課程の先輩(現在は Amazon で推奨業務に携わっています)が言った「Garbage in, Garbage out(ゴミを入れればゴミが出る)」という言葉を思い出させます。この言葉は、AI+ 製品の実装にもっと当てはまります。つまり、データは推奨結果(またはコンテンツ配信)の品質において基本的な役割を果たします。

ここで、著者の考えに従って、質問を考えてみましょう。Toutiao の DAU (デイリーアクティブユーザー) は 2 億 4000 万人を超え、ユーザー 1 人あたりの 1 日あたりの平均使用時間は 70 分を超えると言われています。ユーザーがコンテンツ (記事/動画) を読む平均時間が 2 分であると仮定すると、ユーザーが読んでいるコンテンツデータは 2 億 4000 万 * 70/2 = 84 億以上 (記事) になるはずです。 。

それで、元の質問に戻りますが、Toutiao の推奨はなぜそれほど素晴らしいのでしょうか?

それは、Toutiaoがレコメンデーションアルゴリズムの3つのコアバリアに関して業界の最先端にいるからです(中国ではNo.1とさえ言えます)。

もう一つ

上記はすべて私のささやかな意見です。私が述べたことは、Toutiaoの推奨アルゴリズムのほんの一部に過ぎません。その背後にあるモデルとデータは非常に大きく強力であるため、間違いは避けられません。ご理解いただき、ご批判と訂正をいただければ幸いです。

さらに、著者は、機械(コンピュータ)がいかに強力であっても、それは人間によって「授けられた」ものであると考えています。機械の知能の向上は、人間の継続的な進化と強化に反映されるはずです(推奨アルゴリズムチーム | モデリングとデータ処理など)。

著者:熊慧超、 Star Networkより出版許可。

出典: Buer Internet

原題: Toutiao を例に挙げて: 推薦戦略について語る

キーワード:

<<:  情報の流れをめぐる大混乱の中で、誰が立ち上がるのか?

>>:  2018年中国インターネット消費者エコシステムビッグデータレポート!

推薦する

クラウドネイティブ Docker デプロイメント Flask 実践

1. Dockerの理解1. Dockerの簡単な紹介Docker はオープンソースのアプリケーシ...

Baidu のセキュリティリスク警告が再び強化されました。ウェブマスターは何をすべきでしょうか?

Baidu のすべてのアップデートとアップグレードは、私を含むウェブマスターにとって大きな関心事です...

百度へ

このタイトルを思いついたとき、私はまだウェブサイトの宣伝に取り組んでいました。しかし、時代は変わり、...

コンテナとKubernetesを活用した3つの変革成功事例

さまざまな業界の企業が、デジタル変革の一環として、あるいは増大する需要に対応するために構築される高価...

分散相互排除方式は分散技術に不可欠である

分散ミューテックスとは何ですか?在庫の削減は非常に一般的な例です。 2 つのスレッドが同時に在庫が ...

vpsace-1g メモリ/75g メモリ/ニューヨーク/年間 50 ドル

vpsaceドメイン名は2011年に登録されました。運用開始などの履歴情報に関する公式情報はありませ...

相互リンクはランキングを向上させる最良の方法です

リンク交換を行っている広州 SEO の Chen Yong さんは、常に他のウェブマスターに相互リン...

spinservers: サンノゼ物理マシンが 25% オフ、月額 111 ドル、2*e5-2630Lv3/64G メモリ/2T SSD/10Gbps 帯域幅

spinservers は、米国サンノゼのデータセンターに 120 台の独立したサーバーを補充し、デ...

地域密着型ウェブサイトが運営する「四診法」「視診」「聴診」「問診」「触診」

ローカルウェブサイトの運営とプロモーションに携わるウェブマスターには、一定の文化的リテラシー、基本的...

Yuehuai SEO: スナップショットを失った後もウェブサイトがまだ含まれているという奇妙な現象を分析

ウェブマスターは、ウェブサイトを運営する際に、Baidu のランキングが 11 位になったり、スナッ...

bandwagonhost-新しいコンピュータルーム/FMT/年間19.99ドル/512Mメモリ/10gSSD/1Tトラフィック

BandwagonHost が新しい IP ソリューションを見つけたのか、それとも新しいコンピュータ...

クラウドネイティブ NFV でのコンテナ化された VNF 展開を評価する方法

通信アプリケーションと IT アプリケーションでは、クラウドネイティブの仮想ネットワーク機能 (VN...

AI がエッジ コンピューティングと IoT をよりスマートにする方法

[[391125]]エッジで AI を導入すると、ネットワークの遅延と運用コストが削減されるだけでな...

テンセントクラウドビッグデータプラットフォームは、毎日のリアルタイムコンピューティング量が40兆を超え、引き続きリードしています。

9月11日、テンセントグローバルデジタルエコシステムカンファレンスで、テンセントクラウド副社長の劉宇...