【WOT】ヤン・シグアン:百度は分散クラスタを通じて兆単位のコンピューティングを実現

【WOT】ヤン・シグアン:百度は分散クラスタを通じて兆単位のコンピューティングを実現

[51CTO.com からのオリジナル記事] WOT2016 ビッグデータ サミットは、2016 年 11 月 25 日から 26 日まで北京 JW マリオット ホテルで開催されます。ビッグデータ分野の第一線の専門家やデータ テクノロジーの先駆者数十名が会場に集まり、機械学習、リアルタイム コンピューティング、システム アーキテクチャ、NoSQL テクノロジーの実践など、最先端の技術トピックについて詳細な情報交換や議論を行うとともに、ビッグデータ分野におけるベスト プラクティスや最も人気のある業界アプリケーションを共有します。

記者は会議前に、百度のウェブ検索インフラチームの技術リーダーであるヤン・シグアン氏にインタビューした。彼は WOT2016 ビッグデータ サミットの講演者の 1 人で、大規模コンピューティングと検索エンジンの最新テクノロジーを私たちと共有しました。

Yan Shiguang は 2011 年に Baidu に入社しました。当初は Spider システム アーキテクチャに関する研究開発に従事し、Baidu の第 3 世代 Spider システムの設計と実装を統括しました。彼の現在の主な研究分野は大規模分散システムです。彼は、Baidu の大規模データベース Tera、Baidu ファイル システム BFS、およびクラスター オペレーティング システム Galaxy の主要な作者です。彼はオープンソースに熱心で、B​​aidu の多くの主要システムのオープンソース化を推進してきました。以下はインタビューの記録です。

1. 中国最大の検索プラットフォームとして、Baidu が直面している最大の課題は何だとお考えですか?現在はどのように解決されていますか?

Baidu は多くの課題に直面しています。私が話せるのは、Web 検索テクノロジーが直面している課題についてだけです。現時点での最大の課題は、報道範囲と適時性です。カバレッジは、Baidu が取得できる Web ページの範囲と考えることができます。範囲が広いほど良いです。
簡単に言えば、適時性とは、インターネット上で新しい Web ページが生成されてから Baidu がそれを取得できるまでの遅延を指します。短ければ短いほど良いです。これら 2 つの課題、つまり、できるだけ多くのデータを処理するという課題と、できるだけ迅速に処理するという課題は、矛盾しているように見えます。現在のソリューションは増分ストリーミング処理です。通常のストリーミング処理技術とは異なり、検索エンジンは各 Web ページを処理します。ウェブページの内容が正しいかどうか、ウェブページの重み(PageRank)の大きさは、ウェブページ自体だけでなく、インターネットのグローバルな情報にも左右されます。

したがって、増分処理の核となるのは、インターネット上のすべてのウェブページやハイパーリンク情報を保存し、リアルタイムで読み書きできるデータベースです。このデータベースの背後には、Baidu ファイル システムやクラスター スケジューリング システムなどの一連のインフラストラクチャがあります。

2. 分散技術が登場する前、Baidu Search は計算に何に依存していましたか?

現在の増分処理技術が登場する前は、Baidu はデータ処理に主に MapReduce と Spark に依存していました。どちらもバッチコンピューティングの考え方に基づいているため、レイテンシは比較的高くなります。 Spark は 10 分レベルを達成できますが、処理できるデータの量には制限があります。膨大な量のグローバル情報に依存する計算は MapReduce を使用することでのみ実行でき、レイテンシは数週間に達します。

MapReduce の制限はスケーラビリティにも反映されます。 100 億の Web ページを処理するのに 1,000 台のマシンが必要な場合、1 兆の Web ページを処理するには 100,000 台のマシンが必要となり、これはほとんど負担できないコストになります。

そのため、これまでは、データ処理も処理できるデータ量も大幅に制限されていました。

3. 百度は兆レベルのコンピューティングにおいてどのような経験を私たちと共有できるのでしょうか?

兆レベルのコンピューティングの中心的な課題は、システムのスケーラビリティと負荷分散にあります。データベース、スケジューリング システム、基盤となる分散ファイル システムなど、何兆ものデータを運ぶには、数万台のマシンのクラスターに効率的に拡張できる必要があります。ここでの主な考慮事項は、一貫性を保ちながら、デザインに単一のポイントを持たないようにすることです。最終的に、ほとんどのシステムでは、メタデータを管理するために分散マスター クラスターを選択し、ユーザー データと計算はピア スレーブ ノードによって実行されます。

負荷分散の問題については、あるエリア内のホットスポットによってコンピューティングタスク全体の速度が低下する可能性があるため、ローカルホットスポットを慎重に処理します。システムの設計、特にデータベース システムの設計では、高速なホット スポット分割とマシン間の移行が実現されます。

考慮すべき点や妥協点はたくさんありますが、具体的な内容は今回の会議での講演で皆さんにお伝えします。

4.現在人気のオープンソーステクノロジーについてどう思いますか?

Yan Shiguang氏は、Baiduでは主にオープンソースプロジェクトに取り組んでいると語った。現在の仕事の中核は、Baidu が独自に開発したビッグデータ処理プラットフォームであり、Hadoop エコシステムに相当する Baidu のオープンソース インフラストラクチャ (分散ストレージ、クラスター管理、ネットワーク通信フレームワーク) です。

Baidu のファイルシステム BFS は Hadoop の HDFS に、大規模データベース Tera は Hadoop の HBase に、分散調整サービス Nexus は Zookeeper に、クラスタースケジューリングシステム Galaxy は Yarn に、コンピューティングフレームワーク Shuttle は MapReduce にそれぞれ対応します。

51CTOが主催するハイエンドテクノロジーサミット[WOT2016「ビッグデータテクノロジーサミット」]が11月25日から26日まで北京月彩JWマリオットホテルで盛大に開幕します。業界の有力者40名以上が集まり、ビッグデータ技術と業界アプリケーションの実用的な組み合わせを分析します。主催者は「WOT講師インタビュールーム」にさらに多くの講師を招待し、技術的な乾物を深く分析します。

WOT2016のその他のインタビュー
  • WOT2016 田超:ビッグデータは情報プラットフォームに何をもたらすのか?
  • WOT2016 王安: 金融とビッグデータの火花を見る
  • 【WOT講師】国家情報センター 邵国安所長:ビッグデータのセキュリティ要件
  • WOT講師Liu Zhe:AdMasterのLambdaアーキテクチャ実践を聞く
  • WOT 講師 Zhao Qiang: Redis の高性能キャッシュと永続性

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  NetApp、ハイブリッドクラウドデータ管理ソリューションを発表

>>:  VMware と Huayun が優秀な学生とハイブリッド クラウドを計画

推薦する

Weiboマーケティング:マーケティングをしているつもりでも、実は火遊びをしている

今朝早く、Weiboで最も人気のある投稿が2つありました。1つは@小米球迷后援会によって投稿され、も...

Docker で MySQL を実行していますか?おめでとうございます、ついに解雇されましたね!

コンテナの定義: コンテナは、「動作環境を切り替えたときにソフトウェアが正常に動作することをどのよう...

記事が掲載されなかった理由は何ですか?

記事の掲載は、すべての SEO 担当者が懸念すべき問題です。掲載される記事の数によって、ウェブサイト...

例は、Baidu関連のドメインのすべてが実際に有効なリンクではないことを証明しています

昨日、グループの新しい友人がキーワードランキングについて私に尋ねました。彼は、競合他社よりも外部リン...

Sina Weiboランキング(Weibo SEO)のヒント共有

Weiboの検索ランキングが徐々に人気になってきています。あなたのWeiboユーザー名のランキングが...

Kubernetes での Spark デプロイメントの完全ガイド

[編集者注] この記事は、Kubernetes 上で Spark クラスターを構築するためのガイドで...

SEOチャット

Amazon キーワード検索分析ツール、SEO ウェブサイトは、Google、Bing、YouTub...

ライブストリーミング販売の状況は変わりつつあるのでしょうか?タオバオは今回大きな動きを見せた

ライブストリーミングeコマースは、単一製品のヒットの時代からブランド構築の時代へと進化しました。昨年...

利益を守ることは独創性を守る方法を教えます

今日の午後、嬉しいと同時に驚くような出来事がありました。午後2時頃、見知らぬ人が突然私のQQに現れて...

hostodo-ロサンゼルス KVM 仮想 VPS 簡易評価/QN コンピュータルーム

私は、hostodo.com の VPS を最初に使用したユーザーの 1 人です。hostodo に...

ページリンクの効果的な最適化方法を設定する方法

ウェブサイトのページリンクレイアウトは、ウェブマスターが常に関心を寄せるトピックの 1 つです。ウェ...

Digitalocean 割引コード集中更新投稿 (随時更新)

多くの友人がデジタルオーシャンの割引コードを探しています。デジタルオーシャンは設立以来、常に非常に良...

ウェブサイト最適化計画の書き方についての簡単な説明

実生活でも、インターネットでも、その他の分野でも、中小企業には独自の目標、開発計画、プログラムがあり...

クラウドコンピューティングの後半では、パブリッククラウド市場が変化し、プライベートクラウド市場は独特の展望を持っています

ビッグデータ、クラウドコンピューティング、人工知能は、1兆ドル規模の巨大なテクノロジー市場を構成して...

質の高いリンクを交換する際に留意すべき5つのルール

すべてのウェブマスターは友好的なリンクを交換しており、これはウェブサイトのランキングの向上、ウェブサ...