同意しますか？コンピューティングの未来は分散化です!

[51CTO.com クイック翻訳] 分散アプリケーションは何も新しいものではありません。最初の分散アプリケーションシステムは、ARPANET などのコンピュータネットワークの登場とともに 50 年前に開発されました。それ以来、開発者は分散システムを使用して、大規模シミュレーション、Web サービス、ビッグデータ処理などのアプリケーションやサービスを拡張してきました。私は 20 年以上のキャリアの中で、インターネット、ピアツーピアネットワーク、ビッグデータ、そして現在は機械学習にわたる分散システムを開発してきました。

しかし、最近まで、分散アプリケーションは標準ではなく例外でした。現在でも、ほとんどの大学の学部生が分散アプリケーションに関わるプロジェクトに取り組むことはほとんどありませんが、この状況は急速に変化しています。

分散アプリケーションは例外ではなく標準になるだろう

この変化を推進しているのは、ムーアの法則の終焉と、新しい機械学習アプリケーションによるコンピューティング需要の急増という 2 つの大きなトレンドです。こうした傾向により、アプリケーション要件と単一ノードのパフォーマンスのギャップが急速に拡大し、これらのアプリケーションを分散せざるを得なくなりました。

ムーアの法則は死んだ

過去40年間、コンピュータ業界で前例のない成長を牽引してきたムーアの法則は終焉を迎えた。ムーアの法則によれば、プロセッサのパフォーマンスは 18 か月ごとに 2 倍になります。現在、同期間における成長率はわずか 10% から 20% です。

ムーアの法則は消滅したかもしれないが、コンピューティングリソースの増加に対する需要は止まっていない。この課題に対処するために、コンピューターアーキテクトは、汎用性を犠牲にしてパフォーマンスを重視したドメイン固有のプロセッサの作成に重点を置いてきました。

ドメイン固有のハードウェアだけでは不十分

ドメイン固有のプロセッサは、汎用性を犠牲にして特定のワークロード向けに最適化されています。このタイプのワークロードの代表的な例はディープラーニングであり、金融サービス、産業制御、医療診断、製造、システム最適化など、ほぼすべてのアプリケーション領域に革命をもたらしました。

ディープラーニングのワークロードをサポートするために、多くの企業がNvidiaのGPUやGoogleのTPUなどの専用プロセッサの開発に競い合っています。しかし、GPU や TPU などのアクセラレータは計算能力の向上をもたらしましたが、本質的には改善率の向上ではなく、ムーアの法則の寿命を延ばすのに役立っています。

ディープラーニングアプリケーションに対する需要の三重苦

機械学習アプリケーションの需要は驚異的な速度で増加しています。以下に、3 つの典型的な重要なワークロードを示します。

1. トレーニング

OpenAI の有名なブログ投稿 (https://openai.com/blog/ai-and-compute) によると、最先端の機械学習の結果を達成するために必要なコンピューティングの量は、2012 年以降、約 3.4 か月ごとに 2 倍になっています。これは、18 か月ごとにほぼ 40 倍の増加に相当し、ムーアの法則の 20 倍に相当します。したがって、ムーアの法則はまだ終わっていないものの、これらのアプリケーションの要件を満たすにはまだまだ遠いと言えます。

この爆発的な成長は、AlphaGo などの難解な機械学習アプリケーションに限定されません。同様の傾向は、コンピュータービジョンや自然言語処理などの主流のアプリケーション領域にも当てはまります。最先端のニューラル機械翻訳 (NMT) モデル 2 つ、2014 年の seq2seq モデルと、2019 年の数百億の文のペアに対する事前トレーニングアプローチを考えてみましょう。これら 2 つのモデルに必要なコンピューティングリソースは、5,000 倍以上です。これは毎年5.5倍の増加に相当します。また、2015 年と 2018 年にそれぞれリリースされた最先端のオブジェクト認識モデルである ResNet 50 と ResNeXt 101 Instagram モデルも検討してください。両者のトレーニング時間の差は驚異の 11,000 倍です (ResNet 50 は 16 個の NVIDIA V100 GPU を使用して 58 分かかりますが、ResNetXt 101 は 336 個の GPU を使用して 22 日かかります)。これは毎年22倍の増加に相当します。これは、年間わずか 1.6 倍しか増加しないムーアの法則をはるかに上回ります。

これらの要求と専用プロセッサの機能とのギャップは拡大し続けており、システム設計者はこれらの計算を分散するしか選択肢がありません。最近、Google は、高速メッシュネットワークで接続された最大 1,000 個の TPU を含む TPU v2 および v3 ポッドをリリースしました。 TPU v3 ポッドは TPU v2 ポッドよりも 8 倍強力ですが、そのうちの 2 倍だけがより高速なプロセッサによるものであることは注目に値します。残りの 6 倍は、TPU v3 ポッドがより分散化されており、TPU v2 ポッドよりも 4 倍多くのプロセッサを使用していることに起因します。同様に、Nvidia は、それぞれ 8 個の GPU と 16 個の GPU を搭載した 2 つの分散 AI システム、DGX-1 と DGX-2 をリリースしました。さらに、Nvidia は最近、データセンター内の GPU 間の接続性を強化するために、有名なネットワークサプライヤー Mellanox を買収しました。

2. 調整

悪化します。モデルを一度だけトレーニングするわけではありません。通常、モデルの品質は、レイヤーの数、隠れユニットの数、バッチサイズなどのさまざまなハイパーパラメータによって決まります。最適なモデルを見つけるには、多くの場合、さまざまなハイパーパラメータ設定を検索する必要があり、これはハイパーパラメータチューニングと呼ばれるプロセスですが、コストがかかる場合があります。たとえば、RoBERTa は最大 17 個のハイパーパラメータを使用する NLP モデルの事前トレーニングに信頼性の高い手法です。各ハイパーパラメータに少なくとも 2 つの値があると仮定すると、検索空間は 130,000 を超える構成で構成され、この空間を探索するには (部分的にでも) 大量の計算リソースが必要になる可能性があります。

ハイパーパラメータ調整タスクのもう 1 つの例は、ニューラルアーキテクチャ検索です。これは、さまざまなアーキテクチャを試して最もパフォーマンスの高いアーキテクチャを選択することで、人工ニューラルネットワークの設計を自動化します。研究者らは、単純なニューラルネットワークの設計でさえ、数十万日間の GPU 計算が必要になる可能性があると主張しています。

3. シミュレーション

ディープニューラルネットワークモデルは多くの場合、専用ハードウェアの進歩を活用できますが、すべての機械学習アルゴリズムが活用できるわけではありません。特に、強化学習アルゴリズムには大量のシミュレーションが含まれます。ロジックが複雑なため、これらのシミュレーションは汎用 CPU で実行するのが最も効果的であり (GPU はレンダリングにのみ使用)、そのためハードウェアアクセラレータの最新の進歩の恩恵を受けることができません。たとえば、最近のブログ投稿で、OpenAI は、ゲーム Dota 2 のプレイでアマチュアに勝てるモデルをトレーニングするために、128,000 個の CPU コアとわずか 256 個の GPU (つまり、GPU の 500 倍の CPU) を使用したと主張しました。

Dota 2 は単なるゲームですが、意思決定アプリケーションでシミュレーションがますます使用されるようになってきており、この分野では Pathmind、Prowler、Hash.ai など、いくつかのスタートアップ企業が登場しています。シミュレーターが環境をより正確にモデル化しようとすると、複雑さが増します。これにより、強化学習の計算の複雑さが大幅に増加します。

まとめ

ビッグデータと AI は、私たちが知っている世界を急速に変えています。いかなる技術革命にも危険はあるものの、今回の革命には10年前には想像もできなかったような形で私たちの生活を向上させる大きな可能性があると私たちは考えています。しかし、この約束を果たすには、これらのアプリケーションのニーズとハードウェアの機能との間のギャップが急速に拡大することによって生じる大きな課題を克服する必要があります。このギャップを埋めるには、これらのアプリを配布する以外に選択肢はありません。これには、開発者がこれらのタイプのアプリケーションを構築できるようにトレーニングし、支援するための新しいソフトウェアツール、フレームワーク、カリキュラムが必要です。これにより、コンピューティングの新しいエキサイティングな時代が到来しました。

原題: コンピューティングの未来は分散型、著者: Ion Stoica

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください。

<<: 低遅延を実現するには、5Gではなくエッジコンピューティングに目を向ける

>>: それが Kafka アーキテクチャの原則です。