簡単に解説：おばあちゃんでもわかるビッグデータ分散コンピューティング

この記事はポピュラーサイエンス記事です。ビッグデータ分散コンピューティング技術を、わかりやすい例を通して皆様にご説明できればと思います。

ビッグデータ技術には、ストレージ、コンピューティング、分析などの一連の複雑な技術が含まれますが、その中核は常に分散コンピューティングでした。ビッグデータテクノロジーを理解したい場合は、MapReduce 分散コンピューティングモデルから始めるのがよいでしょう。

この理論モデルは新しい概念ではありません。これは、2004 年に Google によってリリースされました。10 年以上の開発を経て、現在のビッグデータエコシステムの基盤となっています。ビッグデータ技術の鍵はMapReduceにあると言えます。

従来のコンピューティング技術

分散コンピューティングテクノロジの概念に入る前に、従来のコンピューティングテクノロジを復習しましょう。

コンピュータ分野の概念を鮮明かつわかりやすくするために、コンピュータを人間に例えてみましょう。

この図では、コンピューターの基本的なコンポーネント間の類似性を示しています。厳密ではありませんが、問題を説明するには十分です。

この類推により、コンピュータ分野の問題を、私たちがよく知っている人間分野の問題に変換することができます。

これからは、あなたも含め誰もがコンピュータであり、私たちはそれを「人間コンピュータ」と呼びます。あなたには基本的なコンピュータ部品があり、神はプログラム、つまりいくつかのコンピューティングタスクを完了できるようにするための一連の定められた命令を書くことができるプログラマーです。

次に、簡単なケースを使用して、「人間型コンピュータ」が従来のコンピューティング技術を使用して実際の問題を解決する方法を分析します。

始める前に、いくつかの制限を追加する必要があります。通常のコンピュータのメモリに上限があるのと同様に、私たちの「人間コンピュータ」にもメモリの上限があります。

ここでは、「人間型コンピュータ」が「メモリ」内に同時に最大 4 種類の情報を記憶できるものと想定します。たとえば、リンゴやナシなどの果物 4 個の数などです。

この「人間型コンピュータ」のパフォーマンスは比較的劣っているようですが、幸いなことに、対処しなければならない問題は複雑ではありません。

ジョーカーやジャックを含まないトランプカードは数十枚あります。これらのカードのマークとサイズは不明です (必ずしもカードのデッキを形成するとは限りません)。「人間型コンピュータ」が各スートのトランプの枚数を数えるプログラムをどのように設計すればよいでしょうか?

答えは口から出てくるかもしれません。「人間のコンピュータ」の場合は、各スートの番号を脳に記憶し、トランプカードを 1 枚ずつ取り出して数え、すべてのトランプカードを処理した後に 4 つのスートの番号を報告します。

答えはまさに正解です。通常のコンピュータの最も単純な計算モードは次のようになります。統計結果はメモリに記録されます。入力デバイスが継続的にデータを読み取ると、メモリ内の統計結果が更新され、最終的に出力デバイスから結果が表示されます。

次の質問の難易度がアップします。これらのトランプの A から K までの 13 枚のカード面の数をそれぞれ数えてください。「プログラム」をアップグレードするにはどうすればいいでしょうか?

以前のソリューションをそのまま使用すると、「人間型コンピュータ」の「メモリ」が足りなくなることがわかりました。なぜなら、その記憶容量の上限は 4 種類の情報であり、A から K までの 13 種類のカード情報を記憶することはできないからです。

これを実際のシナリオに当てはめてみましょう。たくさんの情報を記憶できないときは、記憶を助けるために帳簿を使います。

コンピューターでも同様です。メモリが不足している場合は、ディスクを使用して情報を保存してください。この時点で、元帳は「ディスク」に保存されている Excel ドキュメントに例えることができます。

次に、カードを数える問題に対する解決策があります。トランプカードが取られるたびに、対応するカードタイプの統計数が帳簿で更新され、すべてのトランプカードが数えられた後に結果が直接報告されます。

これは、単一のコンピューターの従来のコンピューティングモデルです。簡単に言えば、入力データに対して一定の統一された規則に従って加算、減算、乗算、除算などの数学演算を実行し、その結果を出力するプロセスです。プロセス中に生成されたデータはメモリまたはハードディスクに保存されます。

上記の場合、トランプは「人間コンピュータ」の「入力データ」であり、コンピュータのバイナリ世界で認識できる数字やテキストに相当します。数えられたカードの数が「出力」であり、これはコンピューターの画面に表示される情報に相当します。

実際、メモリ、ハードディスク、CPU などの基本コンポーネントがあれば、1 台のコンピューター (パソコンだけでなくスマートフォンも) で、インターネットの閲覧、音楽の聴取、映画の視聴など、私たちの日常の基本的なニーズに必要な計算をすでに実行できます。

計算がCPUの限界を超えない限り（人間とコンピュータの囲碁ゲームなど）、問題はありません。また、メモリやハードディスクを最適化するなど、さまざまな方法で単一のコンピューターの計算能力を高め、人々の高まる物質的、文化的ニーズに応えています。

さて、背景は十分です、本題に入りましょう。

ビッグデータ分散コンピューティング

まず、分散コンピューティングとは何でしょうか?簡単に言えば、大量のデータを複数の小さなブロックに分割し、複数のコンピュータを使用して計算を行い、その結果をまとめるというものです。

分散コンピューティングを実行するこれらのコンピューターはクラスターと呼ばれます。前回の記事で述べた人間とコンピューターの類推を引き続き使用すると、クラスターはチームになります。個人戦闘の時代は終わり、チームワークが重要になります。

分散コンピューティングはなぜ必要なのでしょうか? 「ビッグデータ」の出現により、1 台のコンピューターでは不十分になり、データの量が 1 台のコンピューターの処理能力をはるかに超えるようになりました。

12306 でチケットをオンラインで購入する場合など、単位時間あたりのデータ量が大きい場合があり、1 秒あたり数万回のアクセスが発生することがあります。あるいは、サーバー上の何億もの中国語のウェブページを取得する必要がある Baidu 検索エンジンのように、データの総量が大きい場合もあります。

分散コンピューティングを実現するためのソリューションは数多くあります。ビッグデータ技術が登場する前から研究者たちはこれを研究してきましたが、広く利用されてはいませんでした。

2004 年に Google が MapReduce を発表するまで、MapReduce は普及しませんでした。ビッグデータテクノロジー、分散コンピューティング、MapReduce の関係は、次の図で説明できます。 MapReduce は、ビッグデータ分野における分散コンピューティングのアプリケーションです。

MapReduce モデルは、商業的にテストされた成熟した分散コンピューティングフレームワークです。 Google の分散ファイルシステム GFS および分散データストレージシステム BigTable とともに、Google のビッグデータの「3 つの宝」として知られ、ビッグデータ技術の発展に強固な理論的基礎を提供します。

残念ながら、Google は商用製品を外部に発表しませんでした。ビッグデータ技術を飛躍的に進歩させたのは、Google の理論に従って実装されたオープンソースの無料製品である Hadoop でした。 Hadoopを中核としたビッグデータ技術のエコシステムが形成されました。

ポーカーのカードを数える例に戻りましょう。ビッグデータの時代におけるポーカーの問題はどのようになっているのでしょうか?

入力データの規模が大きくなり、トランプの枚数が数万枚に増加します。
中間計算データのサイズが大きくなる：問題が再度アップグレードされました。 52 種類のカードがそれぞれ何回出現するかを数える必要があります。
処理時間は限られています。できるだけ早く統計結果を取得したいと考えています。

どうですか？ビッグデータが到来すると感じますか?私たち「人間コンピュータ」の「メモリ」と「ハードディスク」には容量の限界があり、52種類のカードの情報は1台のコンピュータの処理能力を超えていることを知っておく必要があります。

もちろん、この問題はメモリやディスク容量を拡張することで解決でき、52 種類のカードに分散コンピューティングはまったく必要ないと考える人もいるかもしれません。さて、この山の中に何百、あるいは何千もの種類のカードがあったらどうなるか考えてみましょう。

したがって、52 種類のカードは現実に即したもので、1 台のコンピューターでは同時にこれほど大量のデータを処理できなくなったことをすべての人に認識してもらうことを目的としています。連携するには複数のコンピューターが必要です。 MapReduce を使う時が来ました。

いくつかの資料を参照し、いくつかの実践を行った後、私は個人的に、MapReduce テクノロジは、divide、transform、shuffle、combine という 4 つの単語で簡単に要約できると考えています。これらはそれぞれ、「分割」、「変換」、「シャッフル」、「マージ」の 4 つのステップを表しています。

[[230957]]

4 語の公式を使用してビッグデータポーカー問題を解決する方法を見てみましょう。

セグメンテーション

入力データを複数の部分に分割する

1 台の「人間のコンピュータ」ではすべてのポーカーカードを処理することはできないため、カードをランダムに複数の部分に分割します。ポーカーカードの各部分は、「人間コンピュータ」によって処理されます。ポーション数は、1台のコンピュータの処理限界を超えず、各ポーションの数が可能な限り均等に分散されるように努めます。

ここで役割分担の問題について話し合う必要があります。複数のコンピュータが連携して動作する場合、役割を分担する必要があります。データのセグメンテーションを担当する「人間コンピュータ」を「司令官」として理解することができます。通常、「指揮官」は 1 人だけです (実際には複数の場合もあります)。指揮官は全体的な調整とスケジュールの責任を負います。

特定のコンピューティングタスクの実行を担当する「人間型コンピューター」は、「コンピューティングソルジャー」です。「コンピューティング兵士」は、担当するさまざまなタスクに応じて、「可変コンピューティング兵士」と「複合コンピューティング兵士」に分けられます。前者は第 2 ステップの「変換」を担当し、後者は第 1 ステップの「合併」を担当します。

もちろん、「計算兵士」の総数は多ければ多いほど良いのですが、「可変計算兵士」と「複合計算兵士」の割合は固定されておらず、データ量や計算の効率に応じて調整することができます。

人員が不足している場合、コンピュータ兵士が 2 つの役割を担うことがあります。実際の状況では、コンピュータは複数のプロセスを持ち、複数のタスクを実行できるため、「指揮官」は同時に「コンピュータ兵士」としても機能する可能性があり、つまり、理論上はコンピュータが複数の役割を果たすことができる。

「指揮官」はトランプを切る前に、まず「可変数兵」と「合同数兵」の数を割り当て、次に「可変数兵」の数に応じてトランプを対応する数に分割し、各トランプのシェアを「可変数兵」に渡して次のステップに進みます。

変身

各入力データをマップする（つまり、MapReduceのMap）

各「変数計算兵士」は、配られたトランプカードを同じルールに従って変換し、変換された結果を後続のステップで処理できるようにする必要があります。この変換は、加算、減算、乗算、除算などの数学演算である場合もあれば、入力データの構造の変換である場合もあります。

たとえば、ポーカーの問題の場合、目的は数を数えることなので、ポーカーカードをコンピューターが処理しやすい数値構造に変換できます。各ポーカーカードに小さなメモを貼り付け、そのメモにカードの数が 1 と書き込まれます。

これらのラベル付きトランプをバリアントトランプと呼びます。後続のステップでカードの種類の数を数えるときは、各ラベルの数字を合計するだけです。

友人の中には、なぜ各「カウントソルジャー」にすべての種類のポーカーカードの数を直接数えさせないのかと不思議に思う人もいるでしょう。これは、この「マッピング変換」操作の本質は、各ポーカーカードを同じルールで変換することであり、数を数える作業は最初のステップで完了する必要があるためです。

厳密なパイプライン操作により全体的な効率が向上し、特定の問題に応じて変換ルールが策定されるため、さまざまな種類の計算に適応しやすくなります。

シャッフル

変換されたデータを特定のルールに従ってグループ化する

変形操作が完了した後、各「異形計算兵」はカードの種類に応じて自分の異形トランプカードを複数の小部分に分割する必要があり、各小部分は最終的に指定された「組み合わせ計算兵」によって組み合わせられ、カウントされます。

このプロセスは「シャッフル」と呼ばれ、「変化する兵士」がルールに従って変形したトランプカードをグループ化し、指定された「結合する兵士」に配布します。

シャッフルは2段階に分かれています。最初の段階では、各「異形カウント兵士」が特定のルールに従って異形トランプカードを分類します。分類ルールは各「総数兵士」の統計範囲によって決まり、分類数は「総数兵士」の数によって決まります。

上の図に示すように、異なる範囲のカードの種類を数える責任を持つ「合計数え兵士」が 3 人いると仮定すると、「異形数え兵士」は、各「合計数え兵士」が担当するカードの種類に応じて、異形トランプカードを 3 つの小さな部分に分割し、各部分を対応する「合計数え兵士」に渡す必要があります。

シャッフルの第 2 段階では、指揮官の指示の下、「連合兵士」が各「異形兵士」の手元に行き、自分の異形トランプを取ります。これにより、同じ種類のトランプは 1 人の「連合兵士」の手元だけに残ります。

シャッフルの目的は、同じ種類のトランプのバリエーションをまとめて、数えやすくすることです。

マージ

シャッフルされたデータを統計的にマージする（つまり、MapReduceのReduce）

「兵士の組み合わせ」は、同じ計算ルールに従って、手札にある異形トランプカードを1枚ずつ組み合わせます。計算ルールも特定の問題に応じて策定する必要があります。ここでは、トランプのラベルの値を直接累積して最終結果を計算します。

そして、「合同計算兵」全員が計算結果を「指揮官」に提出し、「指揮官」が最終的な統計結果をまとめて発表します。

要約する

以上が「分割・変形・洗浄・結合」の四字熟語の紹介です。完全なプロセスは次のとおりです。

分散処理技術は、論理的には複雑ではありませんが、その具体的な実装には、「指揮官」がどのようにしてすべての「コンピューティング兵士」を調整して派遣するか、また「コンピューティング兵士」同士がどのように通信するかなど、複雑なプロセスが多数あります。

しかし、MapReduce を使用してコンピューティングタスクを完了するプログラマーにとっては、これらの複雑なプロセスは透過的です。

分散コンピューティングフレームワークはこれらの問題を自動的に処理するため、プログラマーは次の 2 つの計算ルールを定義するだけで済みます。

2 番目のステップでの変換のルール。
ステップ 4 でルールがマージされました。

諺にあるように、最も簡単な方法が最善であり、物事がどのように変化しても、本質的には同じままです。 MapReduce を理解すれば、ビッグデータ分散処理技術を理解でき、ビッグデータ分散処理技術を理解すれば、ビッグデータ技術の核心を理解できます。

著者: 呂良

紹介: 上級ソフトウェア開発エンジニア。ビジネスシステムのモデリングとアーキテクチャ分析が得意で、分散アーキテクチャとビッグデータ技術に関する深い理論的研究と実践経験を持っています。個人ブログ: www.leonlu.cc

<<: 「王座を争う多くの英雄」から「同じ飼い葉桶を共有する三頭の馬」まで、クラウドコンピューティングの市場構造は安定したのでしょうか?

>>: 企業はどのようにプライベートクラウドプラットフォームを構築するのでしょうか?注目すべき問題

簡単に解説：おばあちゃんでもわかるビッグデータ分散コンピューティング

SEO最適化ウェブサイトURLディレクトリレベルの検索エンジンの自然な重み

カー MP3 デジタルディスクボックスウェブサイト SEO 事例分析

#推奨 VPS# vpsnet-5USD/Xen/1GB RAM/40GB SSD/1TB トラフィック

パブリッククラウド市場の状況は変化しています。事業者はどのようにしてこの機会を捉えることができるでしょうか?

scalahosting: 月額 10 ドル、ダラス VPS、2GB RAM/50GB SSD/無制限帯域幅

モバイル検索が今後も発展を続けていくためには、どこに重点を置くべきでしょうか?

最適化されたVPS: 年間10ドルから利用できるVPS、アジアに最適化されたVPS、CN2 VPS

李佳琦のライブ放送を見るとき、何を見ますか？

コンテナテクノロジーと K8S の次の目的地はどこでしょうか?

Q+はHTML5技術の開発を推進し、開発者とのWin-Winの協力を実現します

推薦する

クラウドへの移行は今後も深まり、企業のIT支出は今年1.3兆ドルを超える見込み

JD.comはIPO価格から10%上昇し、20.9ドルで取引を終えた。

Dapr 入門チュートリアル: キーストレージ

データに語らせる方法 - ウェブサイトの事例分析

限定版ドイツ VPS: unesty、月額 5 ユーロ、9G メモリ/4 コア (AMD)/75g SSD/1G 帯域幅/無制限トラフィック

ウェブサイトのモバイル化が差し迫っています。ウェブサイト所有者は、2014 年のウェブサイトモバイル化コンテストを利用してどのように自らを成長させることができるでしょうか?

フォレスター、2020年のクラウドコンピューティングの変化を予測：アリババがグーグルを抜いて3位になる可能性

経験豊富なウェブマスターとネットワークマーケティングトレーナーが推奨する10の方向性

ネットワークスライシングとサービス品質 (QoS) の違いは何ですか?

ceraus: 国慶節向けの新製品、香港の CN2 VPS、無制限のトラフィック、初月 50% オフ、更新 25% オフ、最低 24 元、2G メモリ/2 コア/40g SSD/5M 帯域幅

「ジェネレーションZ」インサイトレポート！

Buyvm がラスベガスに移転後初のオンラインストッキングを発売

分散ストレージ+携帯電話番号からQRコードへ、Express Real-Name Information Security Allianceはあなたの情報をソースから非公開にしたいと考えています

Kubernetesの未来はFacebookの先例に従うだろう

Golang 分散マーケットプッシュのパフォーマンスボトルネックを最適化する