[51CTO.com からのオリジナル記事] WOT2016 ビッグデータ サミットは、2016 年 11 月 25 日から 26 日まで北京 JW マリオット ホテルで開催されます。ビッグデータ分野の第一線の専門家やデータ テクノロジーの先駆者数十名が会場に集まり、機械学習、リアルタイム コンピューティング、システム アーキテクチャ、NoSQL テクノロジーの実践など、最先端の技術トピックについて詳細な情報交換や議論を行うとともに、ビッグデータ分野におけるベスト プラクティスや最も人気のある業界アプリケーションを共有します。 記者は会議前に、百度のウェブ検索インフラチームの技術リーダーであるヤン・シグアン氏にインタビューした。彼は WOT2016 ビッグデータ サミットの講演者の 1 人で、大規模コンピューティングと検索エンジンの最新テクノロジーを私たちと共有しました。 Yan Shiguang は 2011 年に Baidu に入社しました。当初は Spider システム アーキテクチャに関する研究開発に従事し、Baidu の第 3 世代 Spider システムの設計と実装を統括しました。彼の現在の主な研究分野は大規模分散システムです。彼は、Baidu の大規模データベース Tera、Baidu ファイル システム BFS、およびクラスター オペレーティング システム Galaxy の主要な作者です。彼はオープンソースに熱心で、Baidu の多くの主要システムのオープンソース化を推進してきました。以下はインタビューの記録です。 1. 中国最大の検索プラットフォームとして、Baidu が直面している最大の課題は何だとお考えですか?現在はどのように解決されていますか? Baidu は多くの課題に直面しています。私が話せるのは、Web 検索テクノロジーが直面している課題についてだけです。現時点での最大の課題は、報道範囲と適時性です。カバレッジは、Baidu が取得できる Web ページの範囲と考えることができます。範囲が広いほど良いです。 したがって、増分処理の核となるのは、インターネット上のすべてのウェブページやハイパーリンク情報を保存し、リアルタイムで読み書きできるデータベースです。このデータベースの背後には、Baidu ファイル システムやクラスター スケジューリング システムなどの一連のインフラストラクチャがあります。 2. 分散技術が登場する前、Baidu Search は計算に何に依存していましたか? 現在の増分処理技術が登場する前は、Baidu はデータ処理に主に MapReduce と Spark に依存していました。どちらもバッチコンピューティングの考え方に基づいているため、レイテンシは比較的高くなります。 Spark は 10 分レベルを達成できますが、処理できるデータの量には制限があります。膨大な量のグローバル情報に依存する計算は MapReduce を使用することでのみ実行でき、レイテンシは数週間に達します。 MapReduce の制限はスケーラビリティにも反映されます。 100 億の Web ページを処理するのに 1,000 台のマシンが必要な場合、1 兆の Web ページを処理するには 100,000 台のマシンが必要となり、これはほとんど負担できないコストになります。 そのため、これまでは、データ処理も処理できるデータ量も大幅に制限されていました。 3. 百度は兆レベルのコンピューティングにおいてどのような経験を私たちと共有できるのでしょうか? 兆レベルのコンピューティングの中心的な課題は、システムのスケーラビリティと負荷分散にあります。データベース、スケジューリング システム、基盤となる分散ファイル システムなど、何兆ものデータを運ぶには、数万台のマシンのクラスターに効率的に拡張できる必要があります。ここでの主な考慮事項は、一貫性を保ちながら、デザインに単一のポイントを持たないようにすることです。最終的に、ほとんどのシステムでは、メタデータを管理するために分散マスター クラスターを選択し、ユーザー データと計算はピア スレーブ ノードによって実行されます。 負荷分散の問題については、あるエリア内のホットスポットによってコンピューティングタスク全体の速度が低下する可能性があるため、ローカルホットスポットを慎重に処理します。システムの設計、特にデータベース システムの設計では、高速なホット スポット分割とマシン間の移行が実現されます。 考慮すべき点や妥協点はたくさんありますが、具体的な内容は今回の会議での講演で皆さんにお伝えします。 4.現在人気のオープンソーステクノロジーについてどう思いますか? Yan Shiguang氏は、Baiduでは主にオープンソースプロジェクトに取り組んでいると語った。現在の仕事の中核は、Baidu が独自に開発したビッグデータ処理プラットフォームであり、Hadoop エコシステムに相当する Baidu のオープンソース インフラストラクチャ (分散ストレージ、クラスター管理、ネットワーク通信フレームワーク) です。 Baidu のファイルシステム BFS は Hadoop の HDFS に、大規模データベース Tera は Hadoop の HBase に、分散調整サービス Nexus は Zookeeper に、クラスタースケジューリングシステム Galaxy は Yarn に、コンピューティングフレームワーク Shuttle は MapReduce にそれぞれ対応します。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: NetApp、ハイブリッドクラウドデータ管理ソリューションを発表
>>: VMware と Huayun が優秀な学生とハイブリッド クラウドを計画
今朝早く、Weiboで最も人気のある投稿が2つありました。1つは@小米球迷后援会によって投稿され、も...
コンテナの定義: コンテナは、「動作環境を切り替えたときにソフトウェアが正常に動作することをどのよう...
記事の掲載は、すべての SEO 担当者が懸念すべき問題です。掲載される記事の数によって、ウェブサイト...
昨日、グループの新しい友人がキーワードランキングについて私に尋ねました。彼は、競合他社よりも外部リン...
Weiboの検索ランキングが徐々に人気になってきています。あなたのWeiboユーザー名のランキングが...
[編集者注] この記事は、Kubernetes 上で Spark クラスターを構築するためのガイドで...
Amazon キーワード検索分析ツール、SEO ウェブサイトは、Google、Bing、YouTub...
ライブストリーミングeコマースは、単一製品のヒットの時代からブランド構築の時代へと進化しました。昨年...
今日の午後、嬉しいと同時に驚くような出来事がありました。午後2時頃、見知らぬ人が突然私のQQに現れて...
私は、hostodo.com の VPS を最初に使用したユーザーの 1 人です。hostodo に...
ウェブサイトのページリンクレイアウトは、ウェブマスターが常に関心を寄せるトピックの 1 つです。ウェ...
多くの友人がデジタルオーシャンの割引コードを探しています。デジタルオーシャンは設立以来、常に非常に良...
実生活でも、インターネットでも、その他の分野でも、中小企業には独自の目標、開発計画、プログラムがあり...
ビッグデータ、クラウドコンピューティング、人工知能は、1兆ドル規模の巨大なテクノロジー市場を構成して...
すべてのウェブマスターは友好的なリンクを交換しており、これはウェブサイトのランキングの向上、ウェブサ...