[51CTO.com からのオリジナル記事] WOT2016 ビッグデータ サミットは、2016 年 11 月 25 日から 26 日まで北京 JW マリオット ホテルで開催されます。ビッグデータ分野の第一線の専門家やデータ テクノロジーの先駆者数十名が会場に集まり、機械学習、リアルタイム コンピューティング、システム アーキテクチャ、NoSQL テクノロジーの実践など、最先端の技術トピックについて詳細な情報交換や議論を行うとともに、ビッグデータ分野におけるベスト プラクティスや最も人気のある業界アプリケーションを共有します。 記者は会議前に、百度のウェブ検索インフラチームの技術リーダーであるヤン・シグアン氏にインタビューした。彼は WOT2016 ビッグデータ サミットの講演者の 1 人で、大規模コンピューティングと検索エンジンの最新テクノロジーを私たちと共有しました。 Yan Shiguang は 2011 年に Baidu に入社しました。当初は Spider システム アーキテクチャに関する研究開発に従事し、Baidu の第 3 世代 Spider システムの設計と実装を統括しました。彼の現在の主な研究分野は大規模分散システムです。彼は、Baidu の大規模データベース Tera、Baidu ファイル システム BFS、およびクラスター オペレーティング システム Galaxy の主要な作者です。彼はオープンソースに熱心で、Baidu の多くの主要システムのオープンソース化を推進してきました。以下はインタビューの記録です。 1. 中国最大の検索プラットフォームとして、Baidu が直面している最大の課題は何だとお考えですか?現在はどのように解決されていますか? Baidu は多くの課題に直面しています。私が話せるのは、Web 検索テクノロジーが直面している課題についてだけです。現時点での最大の課題は、報道範囲と適時性です。カバレッジは、Baidu が取得できる Web ページの範囲と考えることができます。範囲が広いほど良いです。 したがって、増分処理の核となるのは、インターネット上のすべてのウェブページやハイパーリンク情報を保存し、リアルタイムで読み書きできるデータベースです。このデータベースの背後には、Baidu ファイル システムやクラスター スケジューリング システムなどの一連のインフラストラクチャがあります。 2. 分散技術が登場する前、Baidu Search は計算に何に依存していましたか? 現在の増分処理技術が登場する前は、Baidu はデータ処理に主に MapReduce と Spark に依存していました。どちらもバッチコンピューティングの考え方に基づいているため、レイテンシは比較的高くなります。 Spark は 10 分レベルを達成できますが、処理できるデータの量には制限があります。膨大な量のグローバル情報に依存する計算は MapReduce を使用することでのみ実行でき、レイテンシは数週間に達します。 MapReduce の制限はスケーラビリティにも反映されます。 100 億の Web ページを処理するのに 1,000 台のマシンが必要な場合、1 兆の Web ページを処理するには 100,000 台のマシンが必要となり、これはほとんど負担できないコストになります。 そのため、これまでは、データ処理も処理できるデータ量も大幅に制限されていました。 3. 百度は兆レベルのコンピューティングにおいてどのような経験を私たちと共有できるのでしょうか? 兆レベルのコンピューティングの中心的な課題は、システムのスケーラビリティと負荷分散にあります。データベース、スケジューリング システム、基盤となる分散ファイル システムなど、何兆ものデータを運ぶには、数万台のマシンのクラスターに効率的に拡張できる必要があります。ここでの主な考慮事項は、一貫性を保ちながら、デザインに単一のポイントを持たないようにすることです。最終的に、ほとんどのシステムでは、メタデータを管理するために分散マスター クラスターを選択し、ユーザー データと計算はピア スレーブ ノードによって実行されます。 負荷分散の問題については、あるエリア内のホットスポットによってコンピューティングタスク全体の速度が低下する可能性があるため、ローカルホットスポットを慎重に処理します。システムの設計、特にデータベース システムの設計では、高速なホット スポット分割とマシン間の移行が実現されます。 考慮すべき点や妥協点はたくさんありますが、具体的な内容は今回の会議での講演で皆さんにお伝えします。 4.現在人気のオープンソーステクノロジーについてどう思いますか? Yan Shiguang氏は、Baiduでは主にオープンソースプロジェクトに取り組んでいると語った。現在の仕事の中核は、Baidu が独自に開発したビッグデータ処理プラットフォームであり、Hadoop エコシステムに相当する Baidu のオープンソース インフラストラクチャ (分散ストレージ、クラスター管理、ネットワーク通信フレームワーク) です。 Baidu のファイルシステム BFS は Hadoop の HDFS に、大規模データベース Tera は Hadoop の HBase に、分散調整サービス Nexus は Zookeeper に、クラスタースケジューリングシステム Galaxy は Yarn に、コンピューティングフレームワーク Shuttle は MapReduce にそれぞれ対応します。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: NetApp、ハイブリッドクラウドデータ管理ソリューションを発表
>>: VMware と Huayun が優秀な学生とハイブリッド クラウドを計画
記者:ハン・ジチャン写真 | 王昭雑誌記者は、ネット界の新人で捜狗のCEOである王小川の人柄を、無神...
ライブ e コマースは、プロモーション ライブ ブロードキャストとマーケティング ライブ ブロードキ...
OVHはどうですか? OVH米国西海岸はどうですか? OVH のヒルズボロ データ センターはどうで...
テンセントテクノロジーニュース(ファン・シャオドン)5月6日のニュースによると、国内のビットコイン取...
筆者はインターネット業界で4年間SEOに携わっており、その間に百度で大小さまざまな調整を経験してきま...
オラクルは本日、企業が従業員の業務をよりスマートかつ効率的に行うためにパーソナライズされたデジタルア...
ウェブサイトのランキングは、外部リンクと完全に関連しています。すべてのSEO担当者は、外部リンクをウ...
インターネット マーケティングは一般的なトピックです。多くの場合、基本的で普遍的な知識や経験が多くの...
数日前、robots.txt のルールに関する誤解について書き、Baidu と Google のロボ...
A5 に投稿するのは今回が初めてです。私はまだ新人で文章が下手なのは承知していますが、私が記録したの...
2020年春、COVID-19パンデミックが拡大するにつれ、世界中で何千万人もの人々がリモートワーク...
HighSpeedWeb、私はこの会社に関するニュースを2017年1月に投稿しました。あなたも201...
ヒートマップが統計ツールに追加されて以来、ほぼ毎日見ています。ヒートマップはユーザーのニーズを調査し...
現在、インターネット企業の買収が相次いでおり、自社のエコシステム内の隙間を埋めるものであれ、上場への...
[51CTO.com クイック翻訳] PwC による最近の調査によると、あらゆる分野のビジネスおよび...