Amazon Web Services、自社製チップTrainuimを搭載したAmazon EC2 Trn1インスタンスの提供開始を発表

Amazon Web Services、自社製チップTrainuimを搭載したAmazon EC2 Trn1インスタンスの提供開始を発表

最近、Amazon Web Services は、自社開発チップ Amazon Trainium を搭載した Amazon Elastic Compute Cloud (Amazon EC2) Trn1 インスタンスが利用可能になったことを発表しました。 Trn1 インスタンスは、クラウドでの高性能機械学習モデルのトレーニング専用に構築されており、同等の GPU ベースのインスタンスと比較してトレーニング コストを最大 50% 節約します。 Trn1 インスタンスは、Amazon Web Services 上で機械学習モデルを超高速でトレーニングできるため、お客様はトレーニング時間を短縮し、モデルを迅速に反復して精度を向上させ、自然言語処理、音声および画像認識、セマンティック検索、推奨エンジン、不正検出および予測などのワークロードの運用効率を向上させることができます。 Trn1 インスタンスを使用するのに最低限の契約や前払いは必要ありません。顧客はコンピューティングの使用料のみを支払います。 Trn1 インスタンスの使用を開始するには、aws.amazon.com/cn/ec2/instance-types/trn1/​​ にアクセスしてください。

ますます多くのお客様が、ビジネスと顧客体験を変革するアプリケーションを強化するために機械学習モデルを構築、トレーニング、展開しています。これらの機械学習モデルはますます複雑になり、精度を向上させるにはますます多くのトレーニング データが必要になります。その結果、顧客はモデルを数千のアクセラレータに拡張する必要があり、トレーニングのコストがますます高くなります。これは、さまざまなモデルを実験およびトレーニングする R&D チームの能力に直接影響し、顧客がイノベーションを市場に投入する速度を制限します。 Amazon Web Services はこれまで、Amazon Web Services の自社開発チップ Amazon Inferentia を搭載した Inf1 インスタンス、G5 インスタンス、P4d インスタンス、DL1 インスタンスなど、機械学習向けのハードウェア アクセラレータ コンピューティング製品の幅広い選択肢を提供してきました。しかし、今日の最速の高速インスタンスを使用しても、ますます複雑化する機械学習モデルのトレーニングには依然として法外なコストと時間がかかります。

Amazon Trainium チップを搭載した新しい Trn1 インスタンスは、Amazon Web Services で実行される機械学習モデルのトレーニングに、非常に高いコスト効率と超高速の速度を提供します。最新の GPU ベースの P4d インスタンスと比較して、ディープラーニング モデルのトレーニング コストを最大 50% 削減します。 Trn1 インスタンス用のソフトウェア開発キット (SDK) である Amazon Neuron を使用すると、顧客はコードの変更をほとんどまたはまったく行う必要がありません。さらに、Amazon Neuron は PyTorch や TensorFlow などの一般的な機械学習フレームワークと統合されます。 Trn1 インスタンスには、ディープラーニング モデルのデプロイ専用に構築された最大 16 個の Amazon Trainium アクセラレーターが付属しています。 Trn1 は、低レイテンシで最大 800 Gbps のネットワーク帯域幅を提供する最初のインスタンスであり、最新の GPU ベースの EC2 インスタンスよりも 2 倍高速です。拡張効率を向上させるために、Amazon Web Services の第 2 世代 Elastic Fabric Adapter (EFA) ネットワーク インターフェイスを使用します。 Trn1 インスタンスは、トレーニングを高速化するために、高速インスタンス インライン化テクノロジ NeuronLink も使用します。お客様は、Amazon EC2 UltraClusters に数万個の Trainium アクセラレータを含む Trn1 インスタンスをデプロイして、数兆個のパラメータを含む非常に複雑なディープラーニング モデルを迅速にトレーニングできます。 EC2 UltraClusters を使用すると、顧客は最大 30,000 台の Trainium アクセラレータを EFA ペタバイト規模のネットワークと相互接続して、機械学習モデルのトレーニングをスケールアウトし、スーパーコンピューティングクラスのパフォーマンスをオンデマンドで利用して、トレーニング時間を数か月から数日に短縮できます。各 Trn1 インスタンスは最大 8 TB のローカル NVMe SSD ストレージをサポートし、大規模なデータ セットへの高速アクセスを提供します。 Amazon Trainium は、複数のデータ型 (FP32、TF32、BF16、FP16、および設定可能な FP8) とランダム丸めをサポートしています。ランダム丸めは、ディープラーニングのトレーニングでよく使用される従来の丸めモードよりもパフォーマンスが優れ、精度も高い確率的な丸め方法です。 Amazon Trainium は、動的テンソルシェイプとカスタム演算子もサポートしており、顧客のトレーニングニーズに合わせて進化するように設計された柔軟なインフラストラクチャを提供します。

「近年、機械学習は大企業が使用するニッチな技術から、多くの顧客のビジネスの中核となる技術へと進化してきました。機械学習のトレーニングがコンピューティングのニーズの大部分をすぐに占めるようになると予想しています」と、Amazon Web ServicesのAmazon EC2担当副社長、デビッド・ブラウン氏は語った。 「当社の高性能機械学習チップである Amazon Inferentia の成功を基に、高性能トレーニング専用の第 2 世代機械学習チップである Amazon Trainium をリリースします。Amazon Trainium を搭載した Trn1 インスタンスにより、お客様はトレーニング時間を数か月から数日に短縮し、コスト効率を高めることができます。」

Trn1 インスタンスは、Amazon Web Services 独自のハードウェアとソフトウェアのイノベーションの集合体である Amazon Nitro システム上に構築されており、分離されたマルチテナント、専用ネットワーク、高速ローカルストレージの提供を簡素化します。 Amazon Nitro System は、CPU 仮想化、ストレージ、およびネットワーク機能を専用のハードウェアとソフトウェアにオフロードし、ベアメタルに近いパフォーマンスを実現します。 Trn1 インスタンスは、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、Amazon Batch などの他の Amazon Web Services を通じて利用できるようになります。 Trn1 インスタンスは、Saving Plans 付きのオンデマンド インスタンスとして、またはリザーブド インスタンスやスポット インスタンスとして購入できます。 Trn1 インスタンスは現在、米国東部 (バージニア北部) および米国西部 (オレゴン) リージョンで利用可能で、他のリージョンでもすぐに利用可能になる予定です。 Trn1 インスタンスの詳細については、aws.amazon.com/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available​​ をご覧ください。

Amazon の製品検索エンジンは、数十億の製品をインデックス化し、毎日数十億の顧客クエリに対応しており、世界で最も頻繁に使用されるサービスの 1 つとなっています。 「当社は、マルチモーダル、マルチ言語、マルチリージョンで、マルチタスク事前トレーニングに基づいた大規模な言語モデルをトレーニングし、複数の次元(製品、クエリ、ブランド、レビューなど)にわたって顧客のショッピング体験を向上させています」と、Amazon Searchのシニアプリンシパルサイエンティスト、トリシュル・チリンビ氏は語った。 「Amazon EC2 Trn1 インスタンスは、他の高速機械学習ソリューションよりもワットあたりのパフォーマンスが高く、大規模な言語モデルをより持続的にトレーニングする方法を提供し、超低コストで高いパフォーマンスを実現します。トレーニングの効率と開発速度をさらに向上させるために、新しい設定可能な FP8 データ型とハードウェア アクセラレーションによるランダム丸めを検討する予定です。」

PyTorch は、研究のプロトタイピングから本番環境への展開までのプロセスを加速するオープンソースの機械学習フレームワークです。 「PyTorch は、機械学習を研究用プロトタイピングから本番環境対応、顧客対応の実装に移行するプロセスを加速することを目指しています。当社は AWS と緊密に連携し、Amazon Trainium を搭載した新しい Trn1 インスタンスでネイティブ PyTorch サポートを提供してきました。PyTorch モデルを構築する開発者は、最小限のコード変更で Trn1 インスタンスでトレーニングを開始できます」と、PyTorch の応用 AI エンジニアリング マネージャーである Geeta Chauhan 氏は述べています。 「さらに、OpenXLA コミュニティと連携して、PyTorch 分散ライブラリがモデルを GPU ベースのインスタンスから Trn1 インスタンスに簡単に移行できるようにしました。より効率的なデータ型、動的シェイプ、カスタム演算子、ハードウェアに最適化されたランダム丸め、高速デバッグ モードなど、Trn1 インスタンスが PyTorch コミュニティにもたらすイノベーションに興奮しています。これらの機能すべてにより、Trn1 インスタンスは PyTorch 開発者による幅広い採用に最適です。今後、トレーニング パフォーマンスをさらに最適化するために、PyTorch に協力して貢献できることを楽しみにしています。」

Helixon は、タンパク質治療薬向けの次世代人工知能 (AI) ソリューションを構築し、科学者がタンパク質の機能と相互作用を解明し、大規模なゲノムデータセットを照会してターゲットを特定し、抗体や細胞療法などの治療薬を設計するのに役立つ AI ツールを開発しています。 「現在、私たちは、多数の GPU ベースのサーバーでモデルを並列にトレーニングする Fully Sharded Data Parallel などのアプローチを使用して、分散ライブラリをトレーニングしています。しかし、それでも 1 つのモデルのトレーニングには数週間かかることがあります」と Helixon の CEO、Jian Peng 氏は述べています。 「AWS で利用可能な最高のネットワーク帯域幅を持つ Amazon EC2 Trn1 インスタンスを活用して、分散トレーニングジョブのパフォーマンスを向上させ、モデルのトレーニング時間を短縮し、コストを削減できることを嬉しく思います。」

マネーフォワードは、企業と個人にオープンで公正な金融プラットフォームを提供します。 「Amazon EC2 Inf1 インスタンスで大規模な AI チャットボット サービスを開始し、同等の GPU ベースのインスタンスと比較して推論レイテンシを 97% 削減し、コストも削減しました」とマネーフォワードの CTO である中出卓也氏は述べています。 「当社では、カスタム自然言語処理モデルを定期的に微調整しているため、モデルのトレーニング時間とコストを削減することが重要です。Inf1 インスタンスへの推論ワークロードの移行に成功した経験と、Amazon Trainium に基づく EC2 Trn1 インスタンスの初期作業に基づいて、Trn1 インスタンスは、エンドツーエンドの機械学習パフォーマンスの向上とコストの削減という点で追加の価値を提供すると期待しています。」

マジックは生産と研究を統合した会社です。同社が開発する人工知能は、あなたの周りの同僚のような存在であり、生産性の向上を手助けしてくれます。 「大規模な自己回帰トランスフォーマーベースのモデルのトレーニングは、私たちの仕事の重要な部分です。Amazon Trainium を搭載した Trn1 インスタンスは、このワークロード向けに設計されており、ほぼ無制限のスケーラビリティ、高速ノード相互接続、16 ビットおよび 8 ビットのデータ型の高度なサポートを提供します」と、Magic の共同創設者兼 CEO である Eric Steinberger 氏は述べています。 「Trn1 インスタンスは、大規模なモデルをより速く、より低コストでトレーニングするのに役立ちます。私たちは特に、Trainium の BF16 ランダム丸めのネイティブ サポートに興奮しています。これにより、パフォーマンスが向上し、完全な精度に近い数値精度が得られます。」




<<:  シーメンスはRed Hat OpenShiftで工場エッジのイノベーションを加速

>>:  テンセントの唐道勝氏:港とクラウドの融合はスマートな港と海運を助け、デジタルとリアルの融合は強力な運輸国家を築く

推薦する

tmhhost: フィリピンサーバー、1456元/e3-1230v3/8gメモリ/1Tハードディスク/20M帯域幅

tmhhost はフィリピンで独立したサーバー サービスを提供しています。サーバーはフィリピンの P...

通話回数は2億回を突破!テンセントクラウドの公式音楽ライブラリへの直接アクセスが単一の製品を発売

1月22日、テンセントクラウドの「本物の音楽ライブラリへの直接アクセス」が単一製品の発売を発表した。...

ブランドマーケティング: ブランド名の原則は何ですか?

1. ブランド名に何百万ドルもの価値があるのはなぜですか? 1. 重要だから孔子は「名が正しくなけれ...

Baidu製品を使用して業界のニーズを理解する

SEO に精通している人は、Baidu の製品を使用して業界ユーザーのニーズを把握する方法を知ってい...

SEO 担当者:「ウェブサイトの権威性」を正しく理解するにはどうすればよいでしょうか?

月給5,000~50,000のこれらのプロジェクトはあなたの将来ですウェブサイトのランキングに影響を...

パッシブバックリンクとアクティブバックリンク

まず、アクティブ外部リンクとパッシブ外部リンクの意味を説明します。これは私の考え方です。実際、アクテ...

とても鮮やかですね!エッジコンピューティングとは何ですか?とても興味深い説明ですね!

Alibaba Cloud がまたトラブルを起こしているのでしょうか?同社は2018年に、雲奇会展深...

ioncloud: ロサンゼルスとサンノゼの最適化された VPS、6 月は 20% オフ、Windows、PayPal+Alipay 付き

クリプトデータセンター傘下のVPSブランド、ioncloudが6月のプロモーションを実施。サンノゼと...

onenetwork 月額 16 ドル - 1G メモリ (xen)/60G ハードディスク/10T トラフィック/12 コア CPU

oneNetworkは1997年に設立されたと言われる長い歴史を持つホスティング会社です。現在、彼ら...

Sogou SR値更新:多くのウェブサイトのSR値が1になる

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス長年更新されていなかった...

zxplay-$6.93/KVM/1G メモリ/40GSSD/無制限 G ポート

zxhost、この会社が何年に設立されたかは明らかではありませんが、ドメイン名は2007年に登録され...

クラウドへの移行時に企業が直面する7つの一般的な課題

企業がこれらのサイバーセキュリティ ツールを活用すべき理由は何でしょうか?長年にわたり、多くの企業は...

企業サイトのSEOの隠れたコストを説明する

多くの企業は、安価であるという理由で SEO を選択します。表面的には、SEO では高額な広告費を支...

ウェブマスターネットワークからの毎日のレポート:Yixunが家電市場に参入、Tencent Enterprise QQが復活

1. Googleの.searchなどのトップレベルドメインの申請は業界団体から反対された北京時間3...