Toutiaoを例に挙げて: 推奨戦略について

Toutiaoを例に挙げて: 推奨戦略について

推薦について

まず、読者がこの記事をよりよく理解できるように、著者はToutiao(携帯電話に「Toutiao」APPをダウンロードすることをお勧めします。また、Toutiaoアカウントを登録してバックグラウンドでログインすることをお勧めします)を例に、コンテンツの推奨(配信)に関連するいくつかの「乾物」を出力します。

タイトルに戻りますが、推奨とは何でしょうか?

一言で言えば、「類は友を呼ぶ」です。

では、物とは何であり、人間とは何なのでしょうか?

回答:モノとはコンテンツ(記事・画像・動画など)であり、ヒトとはユーザー(Toutiaoを閲覧するユーザー)です。

では、機械はどのようにしてコンテンツと人物がどのカテゴリに属しているかを認識するのでしょうか (オブジェクトによって人物を識別する)?

もう一つの答え: 「コンテンツ ポートレート」と「ユーザー ポートレート」の構築、そして推奨プロセスは実際にはユーザーとコンテンツを一致させることです。

では、「コンテンツ ポートレート」と「ユーザー ポートレート」とは何でしょうか?機械はどのようにしてこの 2 つを正確に構築し、一致させるのでしょうか?

コンテンツポートレート

コンテンツ ポートレートとは、簡単に言えば、コンテンツの特徴のことです。コンテンツが視覚化されている場合、私はそれがコンテンツ ファンネルであると想定することを好みます (逆三角形のユーザー ファンネルに似ていますが、表示される関係は必ずしも階層関係ではありません。図 1 を参照)。最初のレイヤーは通常、コンテンツの垂直分野(大きなカテゴリ) を表しますが、次のレイヤーは、タグ/キーワード/主題用語などの小さなカテゴリとして大まかに表すことができます。

(図2:Baiduの画像、テキストは無視され、画像のみが表示されます)

コンテンツファネルには多くのレイヤーがあることを考慮して、理解を容易にするために、ユーザーが直感的に認識できるレイヤーについて簡単に説明します。最も目を引くのは最初のレイヤーでしょう。これは通常、テクノロジー、エンターテインメント、スポーツなど、Toutiao(今日のToutiaoを指す)内の垂直カテゴリ(垂直分野)を指します。

たとえば、私が昨日投稿したソフト広告は、機械によって「テクノロジー」分野の記事として識別されました。このコンテンツの最初のレイヤーはテクノロジーであり、通常は機械によるラベル付け(NLPテクノロジーを含む:テキスト分類、固有表現認識など)、手動入力(伝説的な「タグ付け」の主な形式)、またはPUGC作成者(総称してToutiaoアカウント)がコンテンツを公開するときにフィールド選択を行うことです。ただし、現在ではコンテンツを公開するときに選択を行う必要はありません。

当然ながら、コンテンツの一般的なカテゴリを知るだけでは、ユーザーの興味のあるコンテンツを正確に推奨することはできません。ここでもう 1 つ説明させてください。実はこれもタグ付けの一種 (NLP 技術: テキスト トピック/キーワード抽出) ですが、プラットフォームはユーザーの好みに基づいてコンテンツをさらに絞り込みます。上記の記事を例にとると、対応するサブタグには vivo、携帯電話、テクノロジーなどが含まれます。

もちろん、このコンテンツ ファネルは、これら 2 つのレイヤーよりもはるかに多く、実際にはさまざまな細分化があります。たとえば、上記の記事を続けると、ファネルは次のようになります。テクノロジー -> 携帯電話 -> Android -> vivo -> vivo フラッグシップ フォン -> vivo NEX -> vivo NEX デュアル スクリーン バージョン。サプライズを細分化すればするほど、コンテンツ ポートレートは明確になり、推奨もより正確になります。もちろん、技術的な難易度も高くなります。

そのため、Toutiao の強力なライバルの 1 つである Yidian Zixun は、365 万のパーソナライズされたサブスクリプション チャネルを持っていると主張しており、その背後にある推奨アルゴリズム チームがいかに強力であるかが想像できます。

もちろん、コンテンツ ポートレートには、コンテンツの特性に加えて、そのコンテンツを公開するユーザーの品質、人気、独創性、重みなども含まれます。この重みは、Toutiao アカウントによって公開された記事に対する Toutiao の推奨重みを指します (コンテンツのコールド スタート推奨の数と、その後の推奨のボーナスについての詳細)。

推薦の重みについて言えば、Toutiaoの著者が初心者/オリジナルレビューに合格できるようにするために、プラットフォームにはToutiao Index(図6を参照)という定量的な指標があったことを言及する必要があります。このToutiao Indexは、実際にはプラットフォームがToutiaoに与えたスコアとして理解でき、Toutiaoが公開したコンテンツの推薦の重みを決定します。 Toutiao 指数の評価基準には、独創性、垂直性、注目度、健全性、普及性の 5 つの側面が含まれます (図 7 を参照)。ただし、Toutiao アカウントの Web バージョンのバックエンドでは表示されなくなりましたが、モバイル バージョンではまだ表示されます。

(図7:2017年6月26日の筆者のToutiaoアカウントの背景)

ユーザープロフィール

ユーザーポートレートとは何ですか?つまり、これは、ユーザーの(明示的および暗黙的な)基本特性(性別、教育、年齢、居住地など)と興味(バスケットボールファン、デジタルオタク、アニメファンなど)から構築された「属性グラフ」(技術的には通常「ナレッジグラフ」と呼ばれます)です。

たとえば、私たちは通常、機械によって次のようなデータの組み合わせにラベル付けされます (図 9 を参照)。テクノロジー | 20%、スポーツ | 10%、エンターテイメント | 30、健康 | 5%...

(図9: ユーザーポートレートの例、出典: コンテンツアルゴリズム)

そこで疑問になるのが、マシンはどのようにしてユーザーのプロフィールを知るのかということです。

まず、ユーザーは新規ユーザーと既存ユーザーの 2 つのカテゴリに分けられます。前者は、ユーザー ポートレートの構築 (戦略的な製品インタビューで尋ねられる) における一般的な難しいポイント、つまり (ユーザーの) コールド スタートに関係します。通常、面接官は、ユーザーのコールド スタートをどのように行うのかを尋ねます。

一般的な答えは次のとおりです。

まず、新しいユーザーがアプリを開くと、好きな分野を選択するように求められます。次に、絶対的なコールドスタートはなく、他のアプリでのユーザーの行動が実際に監視されます。たとえば、Taobaoでスニーカーを見ている場合、見出しを開いてニュースを閲覧すると、今見たスニーカーの広告が表示されます。つまり、アプリを開いた瞬間に、スポーツ|バスケットボールというより明らかな属性の1つが取得されます。 3 番目に、マシンは通常、現在ホットなコンテンツ (テクノロジー分野 | iPhone が新製品を発売、エンターテイメント分野 | 王峰が話題になど) を推奨します。これらのコンテンツでのユーザー行動 (クリック、いいね、再投稿、ポップアップ、滞在時間など) を通じて、マシンは画面の前にいるあなたに対する「第一印象」を得ます。

さまざまな分野のコンテンツにおけるユーザーの行動を通じて、コンテンツに対するユーザーの関心を判断し、予備的なユーザー ポートレートを構築することができます (これは、一般的に使用されるユーザー コールド スタート メソッドです)。たとえば、Toutiao を開くと、コールド スタートとして 12 個のコンテンツ (NBA 3 個 + エンターテイメント 3 個 + テクノロジー 3 個 + 食品 3 個) がプッシュされ、その後、スポーツ 3 個、デジタル 2 個、エンターテイメント 1 個をクリックします...

すると、初期のユーザーポートレート(V1.0)は、スポーツ|30%、デジタル分野|20%、エンターテインメント分野|10%、その他の分野|20%となるでしょう。ユーザーは、スポーツが好きで、技術オタクな男性であると推定されます。そして、2 つのスポーツ コンテンツが神戸に関連していることもわかりました。つまり、あなたは男性の神戸ファンであり、デジタル中毒者である可能性が高いということです。

その後、あなたは常連ユーザーになります。Toutiao を使用する回数が増えるほど、生成されるユーザー行動データが増え、その背後にあるモデルは「よりスマート」になるようにトレーニングされます。スワイプするほど、ユーザーポートレートは変化し続け、より詳細かつ正確になります。

推奨方法

最後に、機械がユーザーとコンテンツのポートレートを正確に構築した後、どのように推奨を行うのでしょうか?

実際のところ、これはマッチング操作です。もちろん、単に「マッチング」と言うだけでは不十分だと思います。なぜなら、これら 2 つのユーザー ポートレートとコンテンツ ポートレート (相関特性) に加えて、マシンはモデルをトレーニングする際に、人気特性 (グローバル人気、分類人気など)、コラボレーション特性 (類似ユーザー、興味分類ユーザーなど)、環境特性 (時間、地理的位置など) も考慮するからです。詳細については、図 10 を参照してください。

(図10:出典記事「今日のヘッドラインアルゴリズム原理(全文)」)

次に、図 6 に示すように、マシンがこれらの特徴を学習した後、推奨モデルは継続的に更新されます (正確には、モデルのパラメータが更新されます。たとえば、バックプロパゲーションを実行するときに、ニューラル ネットワークの関連する重みパラメータが各反復で変更されます)。最後に、マシンによって異なるユーザーに提示されるコンテンツも、これらの特徴の違いにより、同じタイプのユーザーであっても異なります。これは、いわゆる「千人の千人の顔」(電子商取引プラットフォームで最初に使用) です。コンテンツ「消費」プラットフォームとして、これは主にコンテンツの配信を指します。

では、コンテンツ配信をより正確にするにはどうすればいいのでしょうか?

ここでは、リコールとソートという 2 つの用語について言及する必要があります。ここで説明するのは難しいです。簡単に言うと、リコールはコンテンツとユーザーラベルの一致度合いに大きく依存しますが、ソートにはユーザーの興味傾向、つまりより細かいマッチング問題が関係します。適切なコンテンツが適切な場所に配置されるようにする必要があるためです。

たとえば、私はデジタルオタクなので、12 個の記事が私に送られてきたら、最初の 1 つはエンターテイメントではなくデジタルに関するものであることを望みます。ランキングは、推奨戦略の優秀さを反映することがよくあります。ユーザーが興味のあるコンテンツにできるだけ早くアクセスできるようにすることでのみ、より多くの保持、アクティベーション、およびコンバージョンを生み出すことができるからです (これにより、プラットフォームが広告やその他の商業活動をプッシュしやすくなります)。

もちろん、AI時代にモデルのパフォーマンス、あるいは私たちのレコメンデーションシステム(機械学習モデルとも捉えられる)のパフォーマンスを決めるのは、アルゴリズムそのものだけでなく、コンピューティングパワー(コンピューターのコンピューティングパワーを指す。この点、Toutiaoと競合他社は差を広げることはできない。これはお金で解決できる問題だからだ)であり、もうひとつの鍵となるのはデータ(高品質なデータ)である。

データの重要性は、科学研究で私を指導してくれた博士課程の先輩(現在は Amazon で推奨業務に携わっています)が言った「Garbage in, Garbage out(ゴミを入れればゴミが出る)」という言葉を思い出させます。この言葉は、AI+ 製品の実装にもっと当てはまります。つまり、データは推奨結果(またはコンテンツ配信)の品質において基本的な役割を果たします。

ここで、著者の考えに従って、質問を考えてみましょう。Toutiao の DAU (デイリーアクティブユーザー) は 2 億 4000 万人を超え、ユーザー 1 人あたりの 1 日あたりの平均使用時間は 70 分を超えると言われています。ユーザーがコンテンツ (記事/動画) を読む平均時間が 2 分であると仮定すると、ユーザーが読んでいるコンテンツデータは 2 億 4000 万 * 70/2 = 84 億以上 (記事) になるはずです。 。

それで、元の質問に戻りますが、Toutiao の推奨はなぜそれほど素晴らしいのでしょうか?

それは、Toutiaoがレコメンデーションアルゴリズムの3つのコアバリアに関して業界の最先端にいるからです(中国ではNo.1とさえ言えます)。

もう一つ

上記はすべて私のささやかな意見です。私が述べたことは、Toutiaoの推奨アルゴリズムのほんの一部に過ぎません。その背後にあるモデルとデータは非常に大きく強力であるため、間違いは避けられません。ご理解いただき、ご批判と訂正をいただければ幸いです。

さらに、著者は、機械(コンピュータ)がいかに強力であっても、それは人間によって「授けられた」ものであると考えています。機械の知能の向上は、人間の継続的な進化と強化に反映されるはずです(推奨アルゴリズムチーム | モデリングとデータ処理など)。

著者:熊慧超、 Star Networkより出版許可。

出典: Buer Internet

原題: Toutiao を例に挙げて: 推薦戦略について語る

キーワード:

<<:  情報の流れをめぐる大混乱の中で、誰が立ち上がるのか?

>>:  2018年中国インターネット消費者エコシステムビッグデータレポート!

推薦する

米国第2位の共同購入サイトがハッキングされ、5000万人のユーザーデータが流出

新浪科技ニュース:北京時間4月27日早朝のニュースで、米国第2位の共同購入サイトLivingSoci...

Dynatrace がクラウド市場を制覇し、ソフトウェア インテリジェンスの新時代を創造

2018年7月18日、第5回Dynatrace Perform Greater Chinaユーザーカ...

Zhubajie CEO 朱明月氏:プラットフォームは最も難しいビジネス

2014年5月25日、IDG Capitalが全額出資し、創業邦が共催した第11回IDGキャンパス起...

ipage - 無制限ウェブホスティングが 85% オフ

米国の老舗仮想ホスティングプロバイダーである ipage は、無制限のスペース、無制限のトラフィック...

過剰な最適化が降格につながる理由は何ですか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスウェブサイトが降格される...

季世三の自己紹介: Guokr.com は一体何をしているのでしょうか?

編集者注: Guokr.com は、近年科学情報コミュニティで活躍しており、メディアとコミュニティの...

華俊:最年長ウェブマスターの過去と現在

彼は公務員でしたが、インターネット会社を設立しました。彼は49歳で、中国のインターネット上で最年長の...

集中砲火を浴びせる動画サイトは、Youku や iQiyi の進化の可能性となるでしょうか?

要約: 連射動画の焦点は動画ではなく連射であり、連射は実は社会や文化と関係があります。この2つが動画...

どの日本のVPSをレンタルするのが良いでしょうか?中国でハイエンドに最適化された回線を備えた日本のVPSを一括で推奨

日本の VPS は市場で非常に人気がありますが、日本の VPS をレンタルするにはどれがよいでしょう...

この記事を読んだ後でも、JVM を理解していると言えるでしょうか?

導入[[256737]]物理メモリが 8G あり、主に Java サービスを実行している一部のサーバ...

Byteblaze - 月額 7 ドル / 512 MB メモリ / KVM + ONAPP + SSD + SAN + G ポート

Byteblazeについては、以前一度紹介したことがありました[byteblaze-KVM+ONAP...

ウェブサイトのフレンドリーさを向上させることは検索エンジンに役立ちます

現実には、私を含め、多くの例があります。もし私のガールフレンドが私に優しくしてくれるなら、私も彼女に...

アリババクラウド、100以上の製品の価格を20%値下げ

2月29日、アリババクラウドは自社のクラウド製品すべての公式サイト価格を値下げし、平均値下げ率は20...

最初からKubernetes上でアプリケーションを構築すべき理由

新しいアプリ、サービス、Web サイトなど、新しいプロジェクトをゼロから開発している場合、主な懸念事...

ntup: ウクライナの無制限トラフィックサーバー、1Gbps、月額料金は 26 ドルから

ntup はウクライナの会社で、ウクライナのドニプロに独自のデータセンターを持っています。現在の主な...