Sina Weibo の Nanwei Hu: Weibo 情報ストリーム推奨におけるディープラーニングの実践

Sina Weibo の Nanwei Hu: Weibo 情報ストリーム推奨におけるディープラーニングの実践

[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフトウェア開発技術サミットが深セン中州マリオットホテルで開催されます。このサミットのテーマはソフトウェア開発であり、数十名の専門家ゲストが多くの素晴らしい技術コンテンツを共有します。当時、新浪微博のシニア機械学習アーキテクトである胡南偉氏は、ディープラーニングとインテリジェントアプリケーション開発サブ会場のゲストに「微博情報フロー推奨システムにおけるディープラーニングの実践と応用」と題した基調講演を行い、新浪微博チームが微博情報フロー推奨システムにディープラーニングをどのように応用しているかを詳しく説明しました。 51CTO は、皆様がこのカンファレンスにご参加いただき、テクノロジーがもたらす喜びを私たちと共有していただくことを心より願っております。

51CTO記者は、同会議で講演する胡南偉氏に独占インタビューを行った。彼がディープラーニングをどのように解釈しているかをちょっと覗いてみましょう。

複雑なシナリオにはディープラーニング技術が必要

モバイル時代において、人々の情報コンテンツへのアクセスや閲覧方法は大きく変化しました。情報フロー推奨は、ソーシャル推奨の分野における比較的新しいトピックです。人工知能技術は、人々が情報にアクセスする方法を変え、コンテンツの作成、レビュー、配信、消費、インタラクションの効率と品質を大幅に向上させました。

Weibo の情報フローの推奨の特性を考慮すると、従来の機械学習では、大規模なユーザー、複雑なシナリオ、より強力なパーソナライズされた消費のニーズを満たすことができなくなりました。そのため、Sina Weiboチームの注目は、従来の機械学習からディープラーニングの分野へと徐々に移っていった。画像、動画、音声など、ディープラーニングが比較的得意とする分野では、Sina Weibo はすでに成熟した製品を持っているか、Weibo ユーザーの大半にひっそりと高品質のサービスを提供している。同時に、ディープラーニングの応用が比較的珍しい分野でも、Sina Weibo は高次元の Weibo 製品機能を深く探求するために多くの研究開発努力を投入してきました。対応するおすすめ商品はWeiboユーザーの日常生活に応用されていると考えられる。

現在、ディープラーニングに基づくマイクロブログ情報フロー推奨システムは、主にメインフィード推奨、人気マイクロブログ推奨、プッシュ推奨などの推奨に使用されています。その機能は次のとおりです。

1. 大規模なサンプル サイズ: 1 回のトレーニング実行のサンプル サイズは 5,000 億を超える場合があります。

2. 大規模な特徴次元 特徴次元は10 億次元以上に達することがあります。

3. 機能カテゴリは複雑で、 Weibo機能、ユーザー機能、関係機能、再投稿、コメントといいね機能、インタラクション機能、露出機能、画像機能、ビデオ機能などが含まれます。

ディープラーニングの本質は特徴を学習することです。ディープラーニングは、レイヤーごとの学習を通じて、元のデータから変更することが容易ではない潜在的な高レベルの特徴を自動的に学習し、これらの高レベルの特徴に基づいて分類などの学習タスクを実行します。従来の機械学習では、多くの特徴エンジニアリング作業が必要になります。機械学習の効果は、抽出された特徴の品質と密接に関係している場合があります。多くの場合、潜在的な特徴の一部を抽出することが困難であり、学習結果が悪くなります。

幅と奥行きのモデル

CNN がその一例です。下の図に示すように、畳み込みとプーリングを通じてネイティブピクセルから特定の種類の画像に共通する高レベルの特徴(鳥のくちばし、羽、鳥の爪など)を抽出し、これらの特徴に基づいて画像が鳥であるかどうかを識別できます。つまり、ディープラーニングは学習を容易にし、特徴学習を通じてより良い結果を実現します。

理論上は浅いニューラル ネットワークでも複雑な関数をシミュレートできますが、多くの複雑な問題ではディープ ラーニングの方が効率的であり、ディープ ラーニングではより少ないパラメーターでより複雑な関数を表現できます。

企業が簡単に素早くトレーニングして反復できるCTRトレーニングキット

Sina Weiboチームは、Wide & Deep Learningモデルを参考に、Weiboシナリオにおける関連レコメンデーションサービスのニーズと特性を組み合わせ、連続、離散、テキスト、ラベル機能の処理、ネットワーク構造パラメータ、モデルのエクスポートと予測を標準化し、迅速なビジネストレーニングと反復が容易なディープラーニングCTRトレーニングキットを開発しました。

このキットには次の 3 つの機能があります。

1. 構成:プログラムを書く必要はなく、モデルをトレーニングするための XML 構成ファイルを書くだけです。

2. 統合:主にデータ、動作環境、オンライン予測の統合に反映されます。

データエンドでは、Weibo 固有の機能 (タグなど) に合わせてカスタマイズされたさまざまなネットワーク構造が統合されています。運用環境の統合の目的は、Weibo 内の複数のトレーニング クラスターに接続し、さまざまなスケジュール システム間の違いを隠すことです。オンライン予測統合は、オンライン予測システムとモデルストレージシステムに接続され、オフライントレーニングとオンライン予測をシームレスに接続します。

3. 可視化:テンソルボード機能を使用して、Weibo 固有のデータの可視化機能をカスタマイズします。

ディープラーニングを適用することで、Sina Weiboの情報フロー推奨システムの特徴次元は1億次元を超え、サンプルサイズは数千億を超えました。オフライントレーニングと評価にディープラーニングモデルを採用し、分散型かつ大規模なディープラーニングモデルのトレーニングを実現しました。現在、小規模フローのオンラインテストの有効性を評価し、大規模適用を計画しています。

【講師プロフィール】

[[209956]]

Nanwei Hu 氏は、Weibo の機械学習コンピューティングおよびサービス プラットフォームのシニア アーキテクト兼責任者です。彼は博士号を取得しています。北京航空航天大学コンピュータサイエンス工学部卒業。彼はソフトウェアエンジニアリングの研究開発とインターネット業界で長年の経験を持っています。彼の個人的な技術的専門知識は、ビッグデータ、クラウド コンピューティング テクノロジー、機械学習にあります。彼は2014年にWeiboに入社し、Weiboの機械学習コンピューティングとサービスプラットフォームの開発を担当しています。彼は以前、IBMやYahooなどの企業で働いていました。

ダブル11特別割引コード[B310BD20D337F914]を使用して200元の割引を受け、私と一緒にWOTDグローバルソフトウェア開発テクノロジーサミットに行きましょう!詳細については、 wot..comをクリックしてください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  Java 仮想マシンはどのようにしてスレッド同期を実行しますか?

>>:  Oracle Hospitality、Hangzhou Green Cloud をソリューションおよび Oracle 製品の最新ディストリビューターとして認定

推薦する

クラウド コンピューティングとコスト: 愛憎関係

デジタル戦略への取り組みにもかかわらず、クラウド コンピューティングを使用する企業にとって、コスト削...

Linode 無料 $20、日本国内 2 データセンター / シンガポールを含む 9 つのオプション データセンター

Linode、この素晴らしい海外の VPS 業者は、長い間 Linode 割引コードを持っていません...

ユーザーに効果的にアピールする3つのサイト内詳細最適化設定を分析

21世紀のウェブサイト最適化では、検索エンジンはウェブサイトの内部最適化設定にさらに注目しています。...

BATは1年間で15の文化企業に投資・買収し、欠点を補い主導権を握る

はじめに:BATの大規模な侵攻は業界で大きな注目を集めています。3つの巨人による集中的な文化的囲い込...

#推奨# contabo: 月額 4.99 ユーロ/8g メモリ/4 コア/300g SSD/無制限トラフィック+スナップショット+Windows (良心的な商人)

本当に低価格のVPSと格安サーバーを提供しているcontabo GmbHを再度お勧めします。cont...

クラウドでオープンソースソフトウェアを開発してイノベーションを高める方法

企業は、独自のクラウド プラットフォーム上でオープン ソース ソフトウェアを使用してアプリケーション...

ドメイン名の選択はウェブサイトの成功の80%を決定します

インターネット上で本当に変化を起こしたいウェブサイトにとって、他人を利用することは大きなリスクを伴い...

3つの大手検索エンジンが競争していますが、どれがトップに立つのでしょうか?

業界で SEO 最適化について話すとき、最初に思い浮かぶのは Baidu SEO です。実際、中国市...

エッジコンピューティングとIoTの共生関係

クラウド コンピューティングは、組織がネットワークを使用および展開する方法に大きな影響を与えてきまし...

dmit: 月額 19 ドル、1.2T トラフィック、香港データセンター、香港 VPS は CN2 回線を使用

dmit 香港データセンターは、CN2 GT 回線と、中国聯通および中国移動の香港 PCCW への直...

使いやすい海外VPSとは?海外のクラウドサーバーを選ぶには?海外VPSおすすめ、格安海外クラウドサーバー10選

多くの人が気軽に海外VPSを購入しています。実は、最も本質的な問題は、どんな海外VPS(海外クラウド...

AWS が Amazon GuardDuty を発表

[51CTO.com からのオリジナル記事] 本日の AWS re:Invent カンファレンスで、...

仮想化について: 仮想化の概要

上記では、クラウド コンピューティングについて比較的包括的に紹介しました。さて、鉄は熱いうちに、クラ...

モノのインターネットとクラウド コンピューティングの間にはどのような依存関係があるのでしょうか?

1970 年代には、メインフレーム コンピュータ システムのレンタルが企業の間で人気がありました。こ...

VMware 取締役会がラグー・ラグラム氏を最高経営責任者に任命

VMware(NYSE:VMW)は本日、取締役会が2021年6月1日付けでランガラジャン(ラグー)ラ...