Sina Weibo の Nanwei Hu: Weibo 情報ストリーム推奨におけるディープラーニングの実践

Sina Weibo の Nanwei Hu: Weibo 情報ストリーム推奨におけるディープラーニングの実践

[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフトウェア開発技術サミットが深セン中州マリオットホテルで開催されます。このサミットのテーマはソフトウェア開発であり、数十名の専門家ゲストが多くの素晴らしい技術コンテンツを共有します。当時、新浪微博のシニア機械学習アーキテクトである胡南偉氏は、ディープラーニングとインテリジェントアプリケーション開発サブ会場のゲストに「微博情報フロー推奨システムにおけるディープラーニングの実践と応用」と題した基調講演を行い、新浪微博チームが微博情報フロー推奨システムにディープラーニングをどのように応用しているかを詳しく説明しました。 51CTO は、皆様がこのカンファレンスにご参加いただき、テクノロジーがもたらす喜びを私たちと共有していただくことを心より願っております。

51CTO記者は、同会議で講演する胡南偉氏に独占インタビューを行った。彼がディープラーニングをどのように解釈しているかをちょっと覗いてみましょう。

複雑なシナリオにはディープラーニング技術が必要

モバイル時代において、人々の情報コンテンツへのアクセスや閲覧方法は大きく変化しました。情報フロー推奨は、ソーシャル推奨の分野における比較的新しいトピックです。人工知能技術は、人々が情報にアクセスする方法を変え、コンテンツの作成、レビュー、配信、消費、インタラクションの効率と品質を大幅に向上させました。

Weibo の情報フローの推奨の特性を考慮すると、従来の機械学習では、大規模なユーザー、複雑なシナリオ、より強力なパーソナライズされた消費のニーズを満たすことができなくなりました。そのため、Sina Weiboチームの注目は、従来の機械学習からディープラーニングの分野へと徐々に移っていった。画像、動画、音声など、ディープラーニングが比較的得意とする分野では、Sina Weibo はすでに成熟した製品を持っているか、Weibo ユーザーの大半にひっそりと高品質のサービスを提供している。同時に、ディープラーニングの応用が比較的珍しい分野でも、Sina Weibo は高次元の Weibo 製品機能を深く探求するために多くの研究開発努力を投入してきました。対応するおすすめ商品はWeiboユーザーの日常生活に応用されていると考えられる。

現在、ディープラーニングに基づくマイクロブログ情報フロー推奨システムは、主にメインフィード推奨、人気マイクロブログ推奨、プッシュ推奨などの推奨に使用されています。その機能は次のとおりです。

1. 大規模なサンプル サイズ: 1 回のトレーニング実行のサンプル サイズは 5,000 億を超える場合があります。

2. 大規模な特徴次元 特徴次元は10 億次元以上に達することがあります。

3. 機能カテゴリは複雑で、 Weibo機能、ユーザー機能、関係機能、再投稿、コメントといいね機能、インタラクション機能、露出機能、画像機能、ビデオ機能などが含まれます。

ディープラーニングの本質は特徴を学習することです。ディープラーニングは、レイヤーごとの学習を通じて、元のデータから変更することが容易ではない潜在的な高レベルの特徴を自動的に学習し、これらの高レベルの特徴に基づいて分類などの学習タスクを実行します。従来の機械学習では、多くの特徴エンジニアリング作業が必要になります。機械学習の効果は、抽出された特徴の品質と密接に関係している場合があります。多くの場合、潜在的な特徴の一部を抽出することが困難であり、学習結果が悪くなります。

幅と奥行きのモデル

CNN がその一例です。下の図に示すように、畳み込みとプーリングを通じてネイティブピクセルから特定の種類の画像に共通する高レベルの特徴(鳥のくちばし、羽、鳥の爪など)を抽出し、これらの特徴に基づいて画像が鳥であるかどうかを識別できます。つまり、ディープラーニングは学習を容易にし、特徴学習を通じてより良い結果を実現します。

理論上は浅いニューラル ネットワークでも複雑な関数をシミュレートできますが、多くの複雑な問題ではディープ ラーニングの方が効率的であり、ディープ ラーニングではより少ないパラメーターでより複雑な関数を表現できます。

企業が簡単に素早くトレーニングして反復できるCTRトレーニングキット

Sina Weiboチームは、Wide & Deep Learningモデルを参考に、Weiboシナリオにおける関連レコメンデーションサービスのニーズと特性を組み合わせ、連続、離散、テキスト、ラベル機能の処理、ネットワーク構造パラメータ、モデルのエクスポートと予測を標準化し、迅速なビジネストレーニングと反復が容易なディープラーニングCTRトレーニングキットを開発しました。

このキットには次の 3 つの機能があります。

1. 構成:プログラムを書く必要はなく、モデルをトレーニングするための XML 構成ファイルを書くだけです。

2. 統合:主にデータ、動作環境、オンライン予測の統合に反映されます。

データエンドでは、Weibo 固有の機能 (タグなど) に合わせてカスタマイズされたさまざまなネットワーク構造が統合されています。運用環境の統合の目的は、Weibo 内の複数のトレーニング クラスターに接続し、さまざまなスケジュール システム間の違いを隠すことです。オンライン予測統合は、オンライン予測システムとモデルストレージシステムに接続され、オフライントレーニングとオンライン予測をシームレスに接続します。

3. 可視化:テンソルボード機能を使用して、Weibo 固有のデータの可視化機能をカスタマイズします。

ディープラーニングを適用することで、Sina Weiboの情報フロー推奨システムの特徴次元は1億次元を超え、サンプルサイズは数千億を超えました。オフライントレーニングと評価にディープラーニングモデルを採用し、分散型かつ大規模なディープラーニングモデルのトレーニングを実現しました。現在、小規模フローのオンラインテストの有効性を評価し、大規模適用を計画しています。

【講師プロフィール】

[[209956]]

Nanwei Hu 氏は、Weibo の機械学習コンピューティングおよびサービス プラットフォームのシニア アーキテクト兼責任者です。彼は博士号を取得しています。北京航空航天大学コンピュータサイエンス工学部卒業。彼はソフトウェアエンジニアリングの研究開発とインターネット業界で長年の経験を持っています。彼の個人的な技術的専門知識は、ビッグデータ、クラウド コンピューティング テクノロジー、機械学習にあります。彼は2014年にWeiboに入社し、Weiboの機械学習コンピューティングとサービスプラットフォームの開発を担当しています。彼は以前、IBMやYahooなどの企業で働いていました。

ダブル11特別割引コード[B310BD20D337F914]を使用して200元の割引を受け、私と一緒にWOTDグローバルソフトウェア開発テクノロジーサミットに行きましょう!詳細については、 wot..comをクリックしてください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  Java 仮想マシンはどのようにしてスレッド同期を実行しますか?

>>:  Oracle Hospitality、Hangzhou Green Cloud をソリューションおよび Oracle 製品の最新ディストリビューターとして認定

推薦する

ウェブサイトのトラフィックとランキングが上がらなくなった場合はどうすればいいですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますウェブサイ...

ウェブマスターに焦点を当てることもできると主張する言い訳はありません

もともとこの記事を書きたくなかったのですが、7月13日の夜に書いた記事「360とSogouが提携した...

nodeserv-年間15ドル/512MBメモリ/50GBハードディスク/1TBトラフィック/フロリダ

nodeserv は 2009 年に設立され、比較的運営歴が短いです。openvz に基づく VPS...

10月23日にハイパーリンク不正行為に対抗するために百度が実施したアルゴリズムアップグレードの解釈

先ほど、Baidu Webmaster Platform で「ハイパーリンク不正のアルゴリズムアップ...

Arvixe - 50% オフセール、ブラックフライデー (Win/JSP ホスティングが目玉)

Arvixe は毎年恒例のブラックフライデー プロモーションを実施します。すべてのホストが半額、ドメ...

A5 サイズの提出で何がもたらされますか?

では、A5 の提出は私に何をもたらすのでしょうか? Xianyun は、A5 の提出は高品質の外部リ...

多くの電子商取引企業は資金繰りが悪化し、上場の見込みがなくなったため、「資金繰りを厳しくする」必要に迫られたと報じられている。

多くの電子商取引サイトは資金繰りが悪化し、上場の見込みがなくなったため、「資金繰りを厳しくする」必要...

瞬間、ここにクールな9グリッドテクニックがあります

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますウェイシー...

新しいサイトの最適化で見落とされがちな 5 つの重要なポイント

多くの新しいサイトがオンラインになるとすぐにさまざまな最適化作業を開始するという状況に遭遇するかもし...

仮想プライベートクラウドの長所と短所

仮想プライベート クラウド (VPC) は少なくとも 10 年ほど前から存在していますが、使用する前...

有料投稿削除のグレーな利益連鎖を解明:ワンストップサービス

「全員通常通り働いています。」今日の午後、北京市東四環路の莱金創意センター28号オフィスビルの外で、...

JVM メモリ領域に関する面接の質問でまた負けたと聞きました。この記事をチェックしてください!

基本的な質問Javaメモリ領域(ランタイムデータ領域)の紹介Java オブジェクトを作成するプロセス...

友好的なリンク交換に関する 9 つの文章、はっきり覚えていますか?

友好的なリンクの交換は、ウェブサイト運営のより重要な部分です。交換が適切に行われると、サイト自体の包...

cloudcone: 超大容量ハードディスク VPS 再入荷、ロサンゼルス KVM、最大 500G ハードディスク、PayPal/Alipay

cloudcone は、電子メール マーケティング用の大容量ハード ドライブ VPS (ストレージ ...