[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフトウェア開発技術サミットが深セン中州マリオットホテルで開催されます。このサミットのテーマはソフトウェア開発であり、数十名の専門家ゲストが多くの素晴らしい技術コンテンツを共有します。当時、新浪微博のシニア機械学習アーキテクトである胡南偉氏は、ディープラーニングとインテリジェントアプリケーション開発サブ会場のゲストに「微博情報フロー推奨システムにおけるディープラーニングの実践と応用」と題した基調講演を行い、新浪微博チームが微博情報フロー推奨システムにディープラーニングをどのように応用しているかを詳しく説明しました。 51CTO は、皆様がこのカンファレンスにご参加いただき、テクノロジーがもたらす喜びを私たちと共有していただくことを心より願っております。 51CTO記者は、同会議で講演する胡南偉氏に独占インタビューを行った。彼がディープラーニングをどのように解釈しているかをちょっと覗いてみましょう。 複雑なシナリオにはディープラーニング技術が必要 モバイル時代において、人々の情報コンテンツへのアクセスや閲覧方法は大きく変化しました。情報フロー推奨は、ソーシャル推奨の分野における比較的新しいトピックです。人工知能技術は、人々が情報にアクセスする方法を変え、コンテンツの作成、レビュー、配信、消費、インタラクションの効率と品質を大幅に向上させました。 Weibo の情報フローの推奨の特性を考慮すると、従来の機械学習では、大規模なユーザー、複雑なシナリオ、より強力なパーソナライズされた消費のニーズを満たすことができなくなりました。そのため、Sina Weiboチームの注目は、従来の機械学習からディープラーニングの分野へと徐々に移っていった。画像、動画、音声など、ディープラーニングが比較的得意とする分野では、Sina Weibo はすでに成熟した製品を持っているか、Weibo ユーザーの大半にひっそりと高品質のサービスを提供している。同時に、ディープラーニングの応用が比較的珍しい分野でも、Sina Weibo は高次元の Weibo 製品機能を深く探求するために多くの研究開発努力を投入してきました。対応するおすすめ商品はWeiboユーザーの日常生活に応用されていると考えられる。 現在、ディープラーニングに基づくマイクロブログ情報フロー推奨システムは、主にメインフィード推奨、人気マイクロブログ推奨、プッシュ推奨などの推奨に使用されています。その機能は次のとおりです。 1. 大規模なサンプル サイズ: 1 回のトレーニング実行のサンプル サイズは 5,000 億を超える場合があります。 2. 大規模な特徴次元 特徴次元は10 億次元以上に達することがあります。 3. 機能カテゴリは複雑で、 Weibo機能、ユーザー機能、関係機能、再投稿、コメントといいね機能、インタラクション機能、露出機能、画像機能、ビデオ機能などが含まれます。 ディープラーニングの本質は特徴を学習することです。ディープラーニングは、レイヤーごとの学習を通じて、元のデータから変更することが容易ではない潜在的な高レベルの特徴を自動的に学習し、これらの高レベルの特徴に基づいて分類などの学習タスクを実行します。従来の機械学習では、多くの特徴エンジニアリング作業が必要になります。機械学習の効果は、抽出された特徴の品質と密接に関係している場合があります。多くの場合、潜在的な特徴の一部を抽出することが困難であり、学習結果が悪くなります。 幅と奥行きのモデル CNN がその一例です。下の図に示すように、畳み込みとプーリングを通じてネイティブピクセルから特定の種類の画像に共通する高レベルの特徴(鳥のくちばし、羽、鳥の爪など)を抽出し、これらの特徴に基づいて画像が鳥であるかどうかを識別できます。つまり、ディープラーニングは学習を容易にし、特徴学習を通じてより良い結果を実現します。 理論上は浅いニューラル ネットワークでも複雑な関数をシミュレートできますが、多くの複雑な問題ではディープ ラーニングの方が効率的であり、ディープ ラーニングではより少ないパラメーターでより複雑な関数を表現できます。 企業が簡単に素早くトレーニングして反復できるCTRトレーニングキット Sina Weiboチームは、Wide & Deep Learningモデルを参考に、Weiboシナリオにおける関連レコメンデーションサービスのニーズと特性を組み合わせ、連続、離散、テキスト、ラベル機能の処理、ネットワーク構造パラメータ、モデルのエクスポートと予測を標準化し、迅速なビジネストレーニングと反復が容易なディープラーニングCTRトレーニングキットを開発しました。 このキットには次の 3 つの機能があります。 1. 構成:プログラムを書く必要はなく、モデルをトレーニングするための XML 構成ファイルを書くだけです。 2. 統合:主にデータ、動作環境、オンライン予測の統合に反映されます。 データエンドでは、Weibo 固有の機能 (タグなど) に合わせてカスタマイズされたさまざまなネットワーク構造が統合されています。運用環境の統合の目的は、Weibo 内の複数のトレーニング クラスターに接続し、さまざまなスケジュール システム間の違いを隠すことです。オンライン予測統合は、オンライン予測システムとモデルストレージシステムに接続され、オフライントレーニングとオンライン予測をシームレスに接続します。 3. 可視化:テンソルボード機能を使用して、Weibo 固有のデータの可視化機能をカスタマイズします。 ディープラーニングを適用することで、Sina Weiboの情報フロー推奨システムの特徴次元は1億次元を超え、サンプルサイズは数千億を超えました。オフライントレーニングと評価にディープラーニングモデルを採用し、分散型かつ大規模なディープラーニングモデルのトレーニングを実現しました。現在、小規模フローのオンラインテストの有効性を評価し、大規模適用を計画しています。 【講師プロフィール】
Nanwei Hu 氏は、Weibo の機械学習コンピューティングおよびサービス プラットフォームのシニア アーキテクト兼責任者です。彼は博士号を取得しています。北京航空航天大学コンピュータサイエンス工学部卒業。彼はソフトウェアエンジニアリングの研究開発とインターネット業界で長年の経験を持っています。彼の個人的な技術的専門知識は、ビッグデータ、クラウド コンピューティング テクノロジー、機械学習にあります。彼は2014年にWeiboに入社し、Weiboの機械学習コンピューティングとサービスプラットフォームの開発を担当しています。彼は以前、IBMやYahooなどの企業で働いていました。 ダブル11特別割引コード[B310BD20D337F914]を使用して200元の割引を受け、私と一緒にWOTDグローバルソフトウェア開発テクノロジーサミットに行きましょう!詳細については、 wot..comをクリックしてください。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: Java 仮想マシンはどのようにしてスレッド同期を実行しますか?
>>: Oracle Hospitality、Hangzhou Green Cloud をソリューションおよび Oracle 製品の最新ディストリビューターとして認定
2018年に最も安い日本のVPSはどれですか?最も安い日本のVPSはどれですか?日本のVPS市場は実...
IDC は、今年最も大きな投資が見られた 3 つのユースケースとして、コンテンツ配信ネットワーク、仮...
XSX Network (xsx.net) は、日本の東京データセンターで VPS サービスを提供し...
年末が近づいている今こそ、企業が情報に基づいた意思決定を行う準備ができるよう、今後 1 年間の業界動...
あけましておめでとう!ドメイン名を安く登録する方法に関する情報を集めて、皆さんにシェアしました。困っ...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますよく、オン...
インターネットの女王:BATとSohuが世界のトップ10ウェブサイトにランクイン中国新聞社、5月30...
Pacificrack は秋のプロモーションとして 4 つの VPS をリリースしました。いずれも超...
【概要】業界関係者は、今回の措置はタオバオのリベート規則に対する大きな調整であり、Fanli.com...
数年前、レイ・カーツワイルは『The Singularity Is Near』という本を書きました。...
ウェブサイトの構築には多くの障壁があります。プログラムの選択、ウェブサイトのデザイン、ページレイアウ...
Amazon EKS、Azure Kubernetes Service、Google Kuberne...
検索エンジンシステムの前処理:ウェブページの浄化とメタデータの抽出、キーワードはSEO最適化、検索エ...
私がこの記事を書こうと思った主な理由は、インターネット関連従事者の労働強度が絶えず高まっており、国内...
5月17日、「Huawei China Ecosystem Conference 2021-Huaw...