本記事は「2022年国内サーバーCPU研究フレームワーク」から抜粋したもので、サーバー(AI、エッジコンピューティング、クラウドコンピューティングなど)開発の観点からCPUの開発動向を分析することに重点を置いています。 ムーアの法則以降の時代では、プロセス技術の改善のみによってもたらされるパフォーマンス上の利点はすでに非常に限られています。デナードスケーリングの制約により、チップの消費電力は急激に増加し、トランジスタのコストは減少するどころか増加しました。シングルコアのパフォーマンスは限界に達しており、マルチコアアーキテクチャのパフォーマンス向上も鈍化しています。 AIoT 時代の到来により、ダウンストリームのコンピューティング能力の需要は多様化、細分化しており、汎用プロセッサでは対応が困難になっています。 1) 汎用から特殊用途へ: XPU、FPGA、DSA、ASIC など、さまざまなシナリオ向けにカスタマイズされたチップが登場しました。 2) 下から上へ:ソフトウェア、アルゴリズム、ハードウェア アーキテクチャ。アーキテクチャの最適化により、プロセッサのパフォーマンスが大幅に向上します。たとえば、AMD Zen3 は 2 つの個別の 16MB L3 キャッシュを 1 つの 32MB L3 キャッシュに統合し、分岐予測の改善、浮動小数点ユニットの拡張などを追加することで、Zen2 と比較してシングルコア パフォーマンスが 19% 向上します。 3) 異種性と統合: Apple の M1 Ultra チップの発売に触発され、3D パッケージングやチップ間相互接続などの徐々に成熟した技術を使用して複数のチップを効果的に統合することが、ムーアの法則を継続するための最良の方法であると思われます。 主流のチップメーカーは包括的な準備を始めています。Intel はすでに CPU、FPGA、IPU 製品ラインを揃えており、GPU 製品ラインへの投資を増やし、最新の Falcon Shores アーキテクチャを発表し、異種パッケージング技術を磨き上げています。 NvDIA はマルチチップモジュール (MCM、マルチチップモジュール) Grace シリーズ製品を相次いでリリースしており、まもなく量産に入る予定です。 AMD は最近 Xilinx の買収を完了し、将来的には CPU + FPGA の異種統合へと進むと予想されています。 さらに、Intel、AMD、Arm、Qualcomm、TSMC、Samsung、ASE、Google Cloud、Meta、Microsoftなど10の主要業界プレーヤーが共同でChiplet Standard Allianceを設立し、ユニバーサルチップレットの高速相互接続規格であるUniversal Chiplet Interconnect(UCIe)を正式に開始しました。 UCIe フレームワークでは、相互接続インターフェース標準が統一されています。異なるプロセスと機能を持つチップレットチップは、2D、2.5D、3Dなどのさまざまなパッケージング方法を通じて統合されることが期待されています。さまざまな形式の処理エンジンが組み合わさって、高帯域幅、低レイテンシ、経済的な省エネなどの利点を備えた大規模で複雑なチップ システムを形成します。 マルチコアによるパフォーマンス対電力比の向上:マルチコア プロセッサは、複数のプロセッサ コアを同じチップに統合し、各ユニットのコンピューティング パフォーマンス密度を大幅に向上させます。 同時に、元の周辺コンポーネントを複数の CPU システムで共有できるため、通信帯域幅が向上し、通信遅延が短縮されます。マルチコア プロセッサには、並列処理において自然な利点があります。電圧/周波数を動的に調整し、負荷分散を最適化することで、消費電力を効果的に削減し、パフォーマンスを向上させることができます。 マルチスレッドによる全体的なパフォーマンスの向上:プロセッサ上の構造状態を複製することにより、同じプロセッサ上の複数のスレッドが同期して実行され、プロセッサの実行リソースを共有できるため、非常に小さなハードウェア コストで全体的なパフォーマンスとスループットを大幅に向上できます。 プロセスの改善:ムーアの法則によれば、集積回路チップ上の集積回路の数は 18 か月ごとに 2 倍になり、マイクロプロセッサのパフォーマンスも 18 か月ごとに 2 倍になります。 CPU プロセス技術が小さくなるほど、単一のトランジスタのサイズも小さくなります。同じコア領域にさらに多くのトランジスタを配置でき、同じスペースにさらに多くのコアを追加できます。同時に、プロセス技術が小さくなるほど、コンポーネントの静電容量が小さくなり、トランジスタ内の電流の伝送距離が短くなります。 CPUのメイン周波数をさらに上げることができ、消費電力を継続的に削減できます。 マイクロアーキテクチャの改善:多数の演算ユニット、論理ユニット、レジスタ、3 ステート バスと一方向バスの接続、およびさまざまな制御ラインが組み合わさって、CPU マイクロアーキテクチャが形成されます。さまざまなマイクロアーキテクチャ設計は、CPU のパフォーマンスと効率の向上に直接的かつ重要な役割を果たします。 マイクロアーキテクチャのアップグレードには通常、命令セットの拡張、ハードウェアの仮想化、大容量メモリ、アウトオブオーダー実行などの一連の複雑なタスクが含まれます。また、コンパイラや関数ライブラリなどのソフトウェア レベルの変更も含まれ、システム全体に影響を及ぼす可能性があります。 「ティック・トック」モデルはもはや有効ではありません。ムーアの法則は 1960 年代に提唱されました。 2011 年までは、コンピューター コンポーネントの小型化が処理性能向上の主な要因でした。 2011 年以降、ムーアの法則は減速し始め、シリコン製造プロセスの改善によってパフォーマンスが大幅に向上しなくなりました。 2007 年以来、Intel は 2 年周期の「Tick-Tock」開発モデルを導入し、奇数年 (Tick) に新しい製造プロセスを導入し、偶数年 (Tock) に新しいアーキテクチャのマイクロプロセッサを導入しています。 14nmから10nmへの移行が度々延期された後、Intelは2016年に「Tick-Tock」プロセッサアップグレードサイクルを停止し、プロセステクノロジー(Process) - アーキテクチャアップデート(Architecture) - 最適化(Optimization)という3段階のプロセッサアップグレード戦略に切り替えると発表しました。 ポストムーア時代には、トップレベルの最適化がより重要になる可能性があります。3Dスタッキング、量子コンピューティング、フォトニクス、超伝導回路、グラフェンチップなど、新しい「ボトムレベル」の最適化パスが提案されています。この技術はまだ初期段階ですが、将来的には既存の想像空間を突破することが期待されています。 MIT が Science に発表した記事によると、ムーアの法則以降の時代では、コンピューティング能力の向上は、コンピューティング スタックの「最上位層」、つまりソフトウェア、アルゴリズム、ハードウェア アーキテクチャによって大きく向上することになります。 より多くのアプリケーションをカバーするために、一般的な命令セットでは何千もの命令をサポートする必要があることが多く、パイプラインのフロントエンド設計 (命令フェッチ、デコード、分岐予測など) が非常に複雑になり、パフォーマンスと電力消費に悪影響を及ぼします。 ドメイン固有の命令セットにより、命令数を大幅に削減し、操作の粒度を高め、メモリ アクセスの最適化を統合して、パフォーマンスと電力の比率を大幅に向上させることができます。 新しいシナリオが生まれ、CPU は汎用から特殊用途へと進化しました。1972年、ゴードン・ベルは、10 年ごとに新しいタイプのコンピューター (新しいプログラミング プラットフォーム、新しいネットワーク接続、新しいユーザー インターフェイス、新しい使用方法、そしてより安価なもの) が登場し、新しい産業が形成されると提唱しました。 1987年、日立製作所の元主任技師であった牧本次夫氏は、今後の半導体製品は、おおよそ10年ごとに変動しながら、「標準化」と「カスタマイズ」が交互に発展していく路線に沿って発展していくだろうと提唱しました。 デスクトップPC時代、インターネット時代、モバイルインターネット時代を経て、「すべてのモノのインテリジェント接続」が新たなトレンドとなり、AIoTは世界の情報産業革命の第3の波を引き起こしています。 AIoT の最も顕著な特徴は需要が分散していることであり、既存の汎用プロセッサ設計方法ではカスタマイズされたニーズに効果的に対応することが困難です。 汎用性とパフォーマンスの両方を実現するのは困難です。CPUは最も汎用性の高いプロセッサ エンジンであり、最も基本的な命令と最高の柔軟性を備えています。コプロセッサは、ARM の NEON、Intel の AVX、AMX 拡張命令セットおよび対応するコプロセッサなど、CPU の拡張命令セットに基づいて実行されるエンジンです。 GPU は本質的に多数の小さな CPU コアの並列化であるため、NP、Graphcore の IPU などはすべて GPU と同じレベルのプロセッサ タイプです。 FPGA は、アーキテクチャの観点から見ると、カスタマイズされた ASIC エンジンを実装するために使用できますが、ハードウェアのプログラマビリティにより、他の ASIC エンジンに切り替えることができ、ある程度の柔軟なプログラマビリティを備えています。 DSA は ASIC に近い設計ですが、ある程度のプログラム可能性を備えています。カバーされる分野とシナリオは ASIC よりも広範囲ですが、特定の DSA でカバーする必要がある分野はまだ多すぎます。 ASIC は、理論上最も複雑な「命令」と最高のパフォーマンス効率を備えた、完全にプログラム不可能なカスタム処理エンジンです。カバーされるシナリオは非常に小さいため、さまざまなシナリオをカバーするには多数の ASIC 処理エンジンが必要です。 ポストムーア時代の異種混合と統合:海外のチップ大手は異種コンピューティングを積極的に展開しています。Intelは現在、CPU、FPGA、IPU、GPUの製品ラインを展開し、Alder LakeやFalcon Shoresなどの新しいアーキテクチャを相次いで発表しています。 NVIDIA は、マルチチップモジュール (MCM、マルチチップモジュール) Grace シリーズ製品を相次いでリリースしており、近々量産に入る予定です。 AMD は最近 Xilinx の買収を完了し、今後は CPU + FPGA の異種統合へと進むと予想されています。 ファウンドリやパッケージングハウスも異種統合に積極的に投資しています。異種コンピューティングには、高度な統合パッケージング技術が必要です。過去 10 年間の 3D スタッキングや SiP などの高度なパッケージングおよびチップ スタッキング技術の発展により、大規模な異種統合が可能になりました。 現在、TSMC の CoWoS や Samsung の I-Cube など、2.5D パッケージング技術は比較的成熟したレベルにまで発展しており、3D パッケージングが主要なウェハー工場の焦点となっています。 IntelはFoveros技術の量産を開始し、SamsungはX-Cubeの検証を完了し、TSMCもSoiC統合ソリューションを提案しました。 CPU+XPUは広く使用されていますが、まだ最適化の余地があります。従来の異種コンピューティング アーキテクチャには、長い IO パスや入出力リソースの損失などの固有の問題があり、依然として極めて高いパフォーマンスと柔軟性のバランスを完全に取ることができません。 Chiplet Alliance は、超異種性の可能性を探求するために結成されました。 2022年3月3日、Intel、AMD、Arm、Qualcomm、TSMC、Samsung、ASE、Google Cloud、Meta、Microsoftを含む業界大手10社が共同でChiplet Standard Allianceを設立し、ユニバーサルチップレット高速相互接続規格「Universal Chiplet Interconnect Express」(Universal Chiplet Interconnect、略称「UCIe」)を正式に開始しました。 UCIe フレームワークでは、相互接続インターフェース標準が統一されています。異なるプロセスと機能を持つチップレットチップは、2D、2.5D、3Dなどのさまざまなパッケージング方法を通じて統合されることが期待されています。さまざまな形式の処理エンジンが組み合わさって、高帯域幅、低レイテンシ、経済的な省エネなどの利点を備えた大規模で複雑なチップ システムを形成します。 エッジ コンピューティング サーバーは、クラウド コンピューティングでは大規模なリアルタイム処理のニーズを満たすことができないAIoT 時代の「コンピューティング パワー不足」を解決するために不可欠な製品です。人工知能、5G、モノのインターネットなどの技術が徐々に成熟するにつれ、コンピューティング能力に対する需要はデータセンターからエッジへと拡大し続け、より高速なネットワークサービス応答を生み出し、リアルタイムビジネス、アプリケーションインテリジェンス、セキュリティとプライバシー保護などの業界の基本ニーズを満たしています。 市場規模は爆発的に拡大しました。 IDCによると、中国のエッジコンピューティングサーバーの市場規模は全体で33億1,000万米ドルに達し、2020年から23.9%増加した。2020年から2025年までのCAGRは22.2%に達すると予想されており、世界平均の20.2%を上回る。 カスタムサーバーが急増しています。現在、汎用サーバーとエッジカスタマイズサーバーはそれぞれ87.1%と12.9%を占めています。エッジ アプリケーションのシナリオが徐々に豊富になるにつれて、複雑で多様な展開環境とビジネス ニーズに適応するために、特定のフォーム ファクター、低消費電力、より広い動作温度、その他の特定の設計を備えたエッジ カスタマイズ サーバーの需要が急速に高まります。 IDC は、エッジカスタマイズサーバーの複合成長率が 76.7% を維持し、2025 年には 40% を超えると予想しています。 さまざまなビジネス シナリオと統合に応じたカスタマイズがトレンドです。データ センター サーバーとは異なり、エッジ サーバーの構成では、最高のコンピューティング パフォーマンス、最大ストレージ、最大拡張カード数などのパラメーターを盲目的に追求するのではなく、限られたスペースで構成の柔軟性を提供しようとします。現在、エッジ サーバーは主に工業製造などの分野で使用されています。マザーボード、プロセッサなどは、特定の環境(高圧、低温、極端な天候)などに応じて選択されます。下流の需要は断片化されており、統一された標準はありません。 より多くのコンピューティングとストレージの要件がエッジに委任されるにつれて、現在の傾向としては通常、 AI コンピューティング能力を含むさまざまなニーズを満たすために、より緊密なアクセラレーション統合が必要になります。ハイパースケール クラウド プロバイダーは、一般的なマルチテナント アプローチの避けられない断片化を減らすために、コンピューティング、ストレージ、ネットワーク、メモリが構成可能な構造セットになる分散型アーキテクチャを検討し始めています。ラック スタイル アーキテクチャ (RSA) では、CPU、GPU、ハードウェア アクセラレーション、RAM、ストレージ、ネットワーク容量が個別に展開されます。 クラウド サーバーは世界中で従来のサーバーに取って代わりつつあります。クラウド サーバーの発展により、中国は世界的なサーバー大国になりました。モバイル端末やクラウドコンピューティングなどの新世代情報技術の発展と応用により、企業や政府は徐々に従来のデータセンターからクラウドデータセンターへと業務を移行しています。中国のクラウドコンピューティング市場は米国に比べると比較的遅れているものの、近年の中国のクラウドコンピューティングの発展速度は世界のクラウドコンピューティング市場の成長率を大幅に上回っており、この傾向は今後も続くと予想されます。 さまざまなニーズを満たす多様なコンピューティング能力を提供します。一般的に、小規模な Web サイトではデータ処理が少なくて済むため、通常は 1 または 2 コアの CPU を使用します。ローカル ポータルや小規模な業界の Web サイトには、4 つ以上のコア CPU が必要です。電子商取引プラットフォーム、映画やテレビのウェブサイトなどでは、16 個以上のコア CPU が必要です。さらに、クラウド サーバーは柔軟な拡張およびアップグレード サービスも提供し、一般に異機種コンピューティング パワーのロードをサポートします。 CPU + ASIC、クラウド サーバーには明らかな異種混合の傾向があります。従来のコンピューター仮想化アーキテクチャでは、ビジネス層は仮想マシン、管理層はホスト マシンであり、ビジネスと管理は CPU 上で共存するため、ユーザーが利用できる CPU リソースは約 70% しかありません。 AWS はアーキテクチャを創造的に再構築し、ビジネスと管理を 2 つのハードウェア エンティティに分離しました。ビジネスは CPU 上で実行され、管理は NITRO チップ上で実行されるため、仮想化の損失がカスタマイズされた Nitro システムに移行するだけでなく、セキュリティも向上します。 Nitro アーキテクチャは強力であるだけでなく、非常に柔軟性も優れています。一般的に使用されているハイパーバイザー (qemu-kvm、vmware など) に基づいて仮想マシンを実行でき、オペレーティング システムを直接実行することもできるため、CPU リソースを 30% 節約できます。 ARMは重要な挑戦者になる可能性があり、NVIDIAは初のデータセンター専用CPU GRACEを発売しました。パブリッククラウドの大手は価格競争を激しく繰り広げており、国内の一級都市はエネルギー消費を厳しく管理しています。 ARM モバイル端末の利点と低消費電力特性は、大規模データセンターが省エネとコストの問題を解決するための重要なソリューションの 1 つです。国内の自主的かつ制御可能な潮流を背景に、強力なエコ連合を構築できれば、将来、本来のパターンを覆す最も強力な挑戦者となるだろう。 NVIDIA は、最新世代の NVLink-C2C テクノロジーによって相互接続された 2 つの CPU チップで構成される、AI インフラストラクチャと高性能コンピューティング向けの初のデータセンター専用 CPU である NvDIA Grace の発売を発表しました。 Grace は最新の ARMv9 アーキテクチャに基づいています。 1 つのソケットには 144 個の CPU コアがあります。エラー訂正コード (ECC) などのメカニズムを使用して、今日の主要なサーバー チップの 2 倍のメモリ帯域幅とエネルギー効率を実現します。また、優れた互換性を備えており、NvDIA RTX、HPC、Omniverse など、すべての NvDIA ソフトウェア スタックとプラットフォームを実行できます。 CPU から CPU + DPU へ: DPU (データ処理ユニット) は主に CPU のオフロード エンジンとして機能し、主にネットワーク データと IO データを処理し、帯域幅の圧縮、セキュリティの暗号化、ネットワーク機能の仮想化などの機能を提供して、CPU の計算能力を上位レベルのアプリケーションに解放します。 2013 年に AWS が開発した Nitro と Alibaba Cloud が開発した X-Dragon は、どちらも DPU の前身と言えます。 2020年、NVIDIAは「DPU」という製品を正式にリリースし、CPUとGPUに続く第3のメインチップと定義しました。 DPU の出現は、異種コンピューティングにおける新たなマイルストーンです。 DPU は CPU と GPU を補完する優れたツールです。 Nvidia の予測によれば、すべてのサーバーに GPU が搭載されるわけではないが、DPU は搭載される必要があるとのことです。データセンターで使用される DPU の量は、データセンター内のサーバーの数と同じレベルに達します。 AIコンピューティングパワーは人工知能の発展の中核的な原動力となっています。現在、世界のAIサーバーはAIインフラストラクチャ市場の84.2%以上を占めており、AIインフラストラクチャの主体となっています。 AIサーバーは今後も急速な成長を維持し、2024年には世界市場規模が251億米ドルに達すると予想されています。InspurとIDCが発表した「2020年世界コンピューティングパワー指数評価レポート」によると、コンピューティング市場全体に占めるAIコンピューティングの割合は年々増加しており、AIコンピューティング支出の世界的成長の50%は中国によるものです。 CPU から CPU + XPU へ: AI モデルは数千億のパラメータでトレーニングされ、数兆バイトを含むディープ レコメンデーション システムを強化しており、その複雑さと規模は爆発的に増加しています。これらの大規模なモデルは今日のシステムの限界に挑戦しており、CPU の最適化だけではパフォーマンス要件を満たすことは難しいでしょう。 そのため、AI サーバーは主に異機種混合の形態を採用しており、その多くはラックマウント型です。異種混合方式では、CPU + GPU、CPU + FPGA、CPU + TPU、CPU + ASIC、または CPU + 複数のアクセラレーション カードが可能です。 現在市販されている AI サーバーは、CPU + GPU 形式を採用するのが一般的です。 GPU は CPU とは異なり、並列コンピューティング モードを採用しており、グラフィックス レンダリングや機械学習などの集中的なデータ操作の処理に優れているためです。高い精度と有用性を実現するためにモデルを継続的に拡張するには、大容量のメモリ プールへの高速アクセスと、CPU と GPU の緊密な結合が必要です。 CPU から CPU + TPU へ: TPU (Tensor Processing Unit) は、ディープラーニングを高速化するために Google が開発した専用集積回路 (DSA) です。専用の CISC 命令セット、カスタマイズおよび改良されたロジック、回路、コンピューティング ユニット、メモリ システム アーキテクチャ、オンチップ相互接続などを採用し、Tensorflow などのオープン ソース フレームワーク向けに最適化されています。 Google は 2015 年から TPUv1 をリリースしており、Alpha Go などの特定の社内プロジェクトで使用されています。 2018 年に Google は TPUv3 をリリースし、サードパーティへの販売を開始しました。 TPUは徐々に商業利用に向けて進んでいます。 2021年にGoogleは、第3世代TPUの2.7倍の性能を誇るTPUv4iをリリースしました。 256 TPU は、NLP 分野で有名な「BERT」モデルのトレーニングをわずか 1.82 分で完了しましたが、同じ条件で Nvdia A100 GPU を使用した場合は 3.36 分かかりました。 |
>>: ガートナーは、パブリッククラウドに対する世界のエンドユーザーの支出が2023年に約6,000億ドルに達すると予測している。
データは企業の発展を支える重要な生産要素です。ビジネスシナリオの多様化に伴い、データ量も増加し続けて...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています電子メール...
私は数年間教育ウェブサイトを運営しており、主に収益化の方法とオフラインプロモーションの方法を中心に、...
新年には、検索エンジンはスパムコンテンツの処理と判断においてますます正確になり、その処理は非常に厳格...
クラウド移行市場はいくつかの要因によって推進されています。中でも最も重要なのは、企業がオンプレミスか...
要点:サプライチェーンの遅延とチップ不足により IoT 市場全体の成長は鈍化していますが、IoT デ...
2012 年第 7 回中国インターネット ウェブマスター年次会議は、4 月 7 日に北京国際会議セン...
シカゴにデータセンターを持つVPSプロバイダーのlunanodeは、KVMベースの仮想VPSを提供し...
inceptionhosting は評判が良く、VPS 品質が保証されているサービス プロバイダーで...
ウェブサイトへのユーザーの粘着度が高ければ高いほど、ユーザーの忠誠心も高くなり、ウェブサイトへのPV...
近年、IoT エコシステムは急速に成長しており、エンドポイント デバイスからのデータも増加しています...
Baidu の検索エンジン最適化ガイドから、SEO が正常な運用軌道に乗りたい場合、自らの行動に代償...
ここ数ヶ月、民間病院が患者から金銭をだまし取っているというニュースが頻繁に報道されていることに気づい...
新しいタイプのクラウド サービス モデルである統合プラットフォーム (iPaaS) は、さまざまなサ...
情報公開は、SEO初心者にとってもベテランSEO専門家にとっても、日常的な話題です。しかし、現在オン...