【WOT】ヤン・シグアン:百度は分散クラスタを通じて兆単位のコンピューティングを実現

【WOT】ヤン・シグアン:百度は分散クラスタを通じて兆単位のコンピューティングを実現

[51CTO.com からのオリジナル記事] WOT2016 ビッグデータ サミットは、2016 年 11 月 25 日から 26 日まで北京 JW マリオット ホテルで開催されます。ビッグデータ分野の第一線の専門家やデータ テクノロジーの先駆者数十名が会場に集まり、機械学習、リアルタイム コンピューティング、システム アーキテクチャ、NoSQL テクノロジーの実践など、最先端の技術トピックについて詳細な情報交換や議論を行うとともに、ビッグデータ分野におけるベスト プラクティスや最も人気のある業界アプリケーションを共有します。

記者は会議前に、百度のウェブ検索インフラチームの技術リーダーであるヤン・シグアン氏にインタビューした。彼は WOT2016 ビッグデータ サミットの講演者の 1 人で、大規模コンピューティングと検索エンジンの最新テクノロジーを私たちと共有しました。

Yan Shiguang は 2011 年に Baidu に入社しました。当初は Spider システム アーキテクチャに関する研究開発に従事し、Baidu の第 3 世代 Spider システムの設計と実装を統括しました。彼の現在の主な研究分野は大規模分散システムです。彼は、Baidu の大規模データベース Tera、Baidu ファイル システム BFS、およびクラスター オペレーティング システム Galaxy の主要な作者です。彼はオープンソースに熱心で、B​​aidu の多くの主要システムのオープンソース化を推進してきました。以下はインタビューの記録です。

1. 中国最大の検索プラットフォームとして、Baidu が直面している最大の課題は何だとお考えですか?現在はどのように解決されていますか?

Baidu は多くの課題に直面しています。私が話せるのは、Web 検索テクノロジーが直面している課題についてだけです。現時点での最大の課題は、報道範囲と適時性です。カバレッジは、Baidu が取得できる Web ページの範囲と考えることができます。範囲が広いほど良いです。
簡単に言えば、適時性とは、インターネット上で新しい Web ページが生成されてから Baidu がそれを取得できるまでの遅延を指します。短ければ短いほど良いです。これら 2 つの課題、つまり、できるだけ多くのデータを処理するという課題と、できるだけ迅速に処理するという課題は、矛盾しているように見えます。現在のソリューションは増分ストリーミング処理です。通常のストリーミング処理技術とは異なり、検索エンジンは各 Web ページを処理します。ウェブページの内容が正しいかどうか、ウェブページの重み(PageRank)の大きさは、ウェブページ自体だけでなく、インターネットのグローバルな情報にも左右されます。

したがって、増分処理の核となるのは、インターネット上のすべてのウェブページやハイパーリンク情報を保存し、リアルタイムで読み書きできるデータベースです。このデータベースの背後には、Baidu ファイル システムやクラスター スケジューリング システムなどの一連のインフラストラクチャがあります。

2. 分散技術が登場する前、Baidu Search は計算に何に依存していましたか?

現在の増分処理技術が登場する前は、Baidu はデータ処理に主に MapReduce と Spark に依存していました。どちらもバッチコンピューティングの考え方に基づいているため、レイテンシは比較的高くなります。 Spark は 10 分レベルを達成できますが、処理できるデータの量には制限があります。膨大な量のグローバル情報に依存する計算は MapReduce を使用することでのみ実行でき、レイテンシは数週間に達します。

MapReduce の制限はスケーラビリティにも反映されます。 100 億の Web ページを処理するのに 1,000 台のマシンが必要な場合、1 兆の Web ページを処理するには 100,000 台のマシンが必要となり、これはほとんど負担できないコストになります。

そのため、これまでは、データ処理も処理できるデータ量も大幅に制限されていました。

3. 百度は兆レベルのコンピューティングにおいてどのような経験を私たちと共有できるのでしょうか?

兆レベルのコンピューティングの中心的な課題は、システムのスケーラビリティと負荷分散にあります。データベース、スケジューリング システム、基盤となる分散ファイル システムなど、何兆ものデータを運ぶには、数万台のマシンのクラスターに効率的に拡張できる必要があります。ここでの主な考慮事項は、一貫性を保ちながら、デザインに単一のポイントを持たないようにすることです。最終的に、ほとんどのシステムでは、メタデータを管理するために分散マスター クラスターを選択し、ユーザー データと計算はピア スレーブ ノードによって実行されます。

負荷分散の問題については、あるエリア内のホットスポットによってコンピューティングタスク全体の速度が低下する可能性があるため、ローカルホットスポットを慎重に処理します。システムの設計、特にデータベース システムの設計では、高速なホット スポット分割とマシン間の移行が実現されます。

考慮すべき点や妥協点はたくさんありますが、具体的な内容は今回の会議での講演で皆さんにお伝えします。

4.現在人気のオープンソーステクノロジーについてどう思いますか?

Yan Shiguang氏は、Baiduでは主にオープンソースプロジェクトに取り組んでいると語った。現在の仕事の中核は、Baidu が独自に開発したビッグデータ処理プラットフォームであり、Hadoop エコシステムに相当する Baidu のオープンソース インフラストラクチャ (分散ストレージ、クラスター管理、ネットワーク通信フレームワーク) です。

Baidu のファイルシステム BFS は Hadoop の HDFS に、大規模データベース Tera は Hadoop の HBase に、分散調整サービス Nexus は Zookeeper に、クラスタースケジューリングシステム Galaxy は Yarn に、コンピューティングフレームワーク Shuttle は MapReduce にそれぞれ対応します。

51CTOが主催するハイエンドテクノロジーサミット[WOT2016「ビッグデータテクノロジーサミット」]が11月25日から26日まで北京月彩JWマリオットホテルで盛大に開幕します。業界の有力者40名以上が集まり、ビッグデータ技術と業界アプリケーションの実用的な組み合わせを分析します。主催者は「WOT講師インタビュールーム」にさらに多くの講師を招待し、技術的な乾物を深く分析します。

WOT2016のその他のインタビュー
  • WOT2016 田超:ビッグデータは情報プラットフォームに何をもたらすのか?
  • WOT2016 王安: 金融とビッグデータの火花を見る
  • 【WOT講師】国家情報センター 邵国安所長:ビッグデータのセキュリティ要件
  • WOT講師Liu Zhe:AdMasterのLambdaアーキテクチャ実践を聞く
  • WOT 講師 Zhao Qiang: Redis の高性能キャッシュと永続性

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  NetApp、ハイブリッドクラウドデータ管理ソリューションを発表

>>:  VMware と Huayun が優秀な学生とハイブリッド クラウドを計画

推薦する

王小川:攻撃を受けるインターネット大手からの生き残りのヒント

記者:ハン・ジチャン写真 | 王昭雑誌記者は、ネット界の新人で捜狗のCEOである王小川の人柄を、無神...

ライブストリーミング後半のビジネスモデル

ライブ e コマースは、プロモーション ライブ ブロードキャストとマーケティング ライブ ブロードキ...

OVHはどうですか?米国西海岸のヒルズボロデータセンターレビュー

OVHはどうですか? OVH米国西海岸はどうですか? OVH のヒルズボロ データ センターはどうで...

いくつかのビットコイン取引プラットフォームが共同で自主規律声明を発表

テンセントテクノロジーニュース(ファン・シャオドン)5月6日のニュースによると、国内のビットコイン取...

ウェブサイトのダウングレードに対処する方法についての簡単な説明

筆者はインターネット業界で4年間SEOに携わっており、その間に百度で大小さまざまな調整を経験してきま...

オラクル、企業向けにパーソナライズされたデジタルアシスタントを提供

オラクルは本日、企業が従業員の業務をよりスマートかつ効率的に行うためにパーソナライズされたデジタルア...

SEO 事例: 外部リンクとコンテンツの関連性がウェブサイトのランキングを決定する

ウェブサイトのランキングは、外部リンクと完全に関連しています。すべてのSEO担当者は、外部リンクをウ...

ネットワークマーケティングをどのように行うべきかを説明する例を挙げる

インターネット マーケティングは一般的なトピックです。多くの場合、基本的で普遍的な知識や経験が多くの...

ウェブサイトでの robots.txt の使用に関するよくある誤解

数日前、robots.txt のルールに関する誤解について書き、Baidu と Google のロボ...

Baidu はブラックハット SEO を行わない言い訳を与えてくれるのでしょうか?

A5 に投稿するのは今回が初めてです。私はまだ新人で文章が下手なのは承知していますが、私が記録したの...

分散オフィス化で4つの大きな変化、3大分析機関が8つの対策を公表

2020年春、COVID-19パンデミックが拡大するにつれ、世界中で何千万人もの人々がリモートワーク...

highspeedweb - 年間 7.5 ドル / 128 MB RAM / 10 GB ハード ドライブ / 250 GB トラフィック / ロサンゼルス

HighSpeedWeb、私はこの会社に関するニュースを2017年1月に投稿しました。あなたも201...

ウェブサイトのヒートマップを見るときは、検索されたキーワードと組み合わせて本質を見る必要があります。

ヒートマップが統計ツールに追加されて以来、ほぼ毎日見ています。ヒートマップはユーザーのニーズを調査し...

買収に関しては、自社の製品チェーンに活路を残すことに他なりません。

現在、インターネット企業の買収が相次いでおり、自社のエコシステム内の隙間を埋めるものであれ、上場への...

レポート: クラウド投資の価値はどこにあるのか?

[51CTO.com クイック翻訳] PwC による最近の調査によると、あらゆる分野のビジネスおよび...