Alluxio データ オーケストレーション プラットフォームがハイブリッドおよびマルチクラウド上の AI および機械学習ワークロードのサポートをさらに拡大

Alluxio データ オーケストレーション プラットフォームがハイブリッドおよびマルチクラウド上の AI および機械学習ワークロードのサポートをさらに拡大

本日、世界初のオープンソース データ オーケストレーション ソフトウェアの開発者である Alluxio は、データ オーケストレーション プラットフォームのバージョン 2.7 の正式リリースを発表しました。このバージョンはすぐにご利用いただけます。バージョン 2.7 では、並列データ読み込み、データ前処理、トレーニング ワークフローにより、機械学習 (ML) トレーニングの I/O 効率が 8 ~ 12 倍向上し、コストを大幅に削減できます。新バージョンでは、パフォーマンス分析が強化され、Apache Hudi や Iceberg などのオープン テーブル形式のサポートも強化されているため、データ レイクへのアクセスの拡張が容易になり、Presto や Spark を使用した分析が高速化されます。

「Alluxio 2.7は、クラウド上の人工知能(AI)、機械学習、ディープラーニングにおけるAlluxioの地位をさらに強固なものにします」と、Alluxioの創設者兼CEOであるHaoyuan Li氏は述べています。 「データセットの増加とCPUおよびGPUの計算能力の向上により、機械学習とディープラーニングがAI技術の主流となりました。これらの技術の台頭はAIの発展を促進しましたが、データやストレージシステムへのアクセスにおけるいくつかの課題も浮き彫りにしました。」

「当社は、ゲーム AI プラットフォームでのモデル トレーニングのデータ前処理を高速化するために、1,000 ノードのクラスターに Alluxio を導入しました。Alluxio は安定性、拡張性、管理の容易さが実証されています」と、テンセントのビッグ データ プラットフォームの研究開発責任者である Chen Peng 氏は述べています。 「ますます多くのビッグデータと AI アプリケーションがコンテナ化されるにつれて、Alluxio はデータ分析とモデルトレーニングを加速する中間層として大企業や機関の第一の選択肢になりつつあります。」

「大規模な分析と AI/ML コンピューティング フレームワークを備えたデータ チームは、安定したパフォーマンスを確保しながら増大するデータ ソースへのアクセス性を高めるというプレッシャーにさらされており、そのためにはデータの局所性、ネットワーク I/O、コストの問題を考慮する必要があります」と ESG のアナリスト、マイク レオーネ氏は述べています。 「企業や組織は、コストのかかるアプリケーションの変更や新たなパフォーマンスの問題への対処を避けながら、クラウド オブジェクト ストレージなどのより手頃でスケーラブルなストレージを導入したいと考えています。Alluxio は、特にハイブリッドおよびマルチクラウド環境において、ストレージの詳細を抽象化し、データをコンピューティングに近づけることで、これらの課題に対処します。」

Alluxio 2.7 では次の機能が追加されました。

Alluxio と NVIDIA の DALI を使用した機械学習トレーニング

NVIDIA のデータ ローディング ライブラリ (DALI) は、CPU と GPU を介したデータのロードと前処理をサポートし、ディープラーニングを高速化する人気の Python ライブラリです。バージョン 2.7 では、Alluxio プラットフォームは DALI とともに展開できるように最適化されており、モデルのトレーニングと推論の前のデータの読み込みと前処理の手順を含む Python ベースの ML アプリケーションを高速化します。 I/O 集約型の作業を高速化し、その後の計算集約型のトレーニングを並行して処理できるようにすることで、Alluxio データ プラットフォームでのエンドツーエンドのトレーニングは、従来のソリューションに比べて大幅なパフォーマンスの向上を実現します。大量の小さなファイルのトレーニングの場合、このソリューションは他のソリューションと比較してスケールアウトを実現できます。

大規模データ読み込み

Alluxio の中心的な位置付けは、分散データ ソースの統合やキャッシュの実装などのデータ管理機能です。 Alluxio が複数の地理的な場所にまたがるコンピューティングおよびストレージ シナリオでますます使用されるようになるにつれて、Alluxio 自体も拡大しています。このアップデートでは、新しいテクノロジーを使用してデータをバッチ処理し、スケーラビリティを強化します。バッチ処理では、組み込みの実行エンジンを使用してデータの読み込みなどのタスクを処理することで、システム構成の作業負荷が軽減され、管理コントローラのリソース要件が軽減されるため、コストが削減されます。

Kubernetesでの使いやすさ

Alluxio は、Kubernetes 用のネイティブ コンテナ ストレージ インターフェイス (CSI) ドライバーと ML 用の Kubernetes オペレーターをサポートするようになり、コンテナ化された環境の Alluxio プラットフォームで ML ワークフローを操作することがこれまで以上に簡単になりました。 Alluxio ボリューム タイプが Kubernetes 環境で利用できるようになりました。この新しいバージョンでは、俊敏性と使いやすさに重点が置かれています。

Prestoの分析に基づいてキャッシュを動的に調整する

新バージョンでは、Shadow Cache と呼ばれる新しいインテリジェント キャッシュ機能も導入されており、キャッシュ サイズが応答速度に与える影響を動的に分析できるため、高性能と低コストのバランスを簡単に実現できます。大規模なマルチテナント Presto 環境では、この新しい機能により、セルフサービス管理を通じて管理オーバーヘッドが大幅に削減されます。

「ストレージと ML 計算が分離されているため、データ プラットフォーム チームは Alluxio を使用してデータの前処理と読み込みフェーズを簡素化できます」と、Alluxio のシニア プロダクト マネージャーである Adit Madan 氏は述べています。 「この簡素化により、Spark ML、Tensorflow、PyTorch などのフレームワークで GPU の使用率を最大化できます。Alluxio ソリューションは、AWS、GCP、Azure Cloud などの複数のクラウド プラットフォームで利用でき、プライベート データ センターまたはパブリック クラウドの Kubernetes でも​​利用できるようになりました。」

ダウンロード

Alluxio 2.7 は、こちらから今すぐダウンロードできます: https://www.alluxio.io/download/

<<:  IBM Zでハイブリッドクラウドの可能性を解き放つ

>>:  ガートナー:世界のクラウド収益は2022年に4,740億ドルに成長する

推薦する

タオバオの顧客運営がコンバージョン率の向上に注力すべき点について簡単に分析

タオバオは参入障壁が低いため、中小のウェブマスターに人気の運営モードとなっています。しかし、タオバオ...

secureragon-10gアンチD/128mメモリ/10gハードディスク/100gフロー/年払い30ドル

secureragon さん、この会社の VPS 事業は数年の歴史があり、約 9 つのデータセンター...

統計ツールを使用してデータを分析、最適化、マイニングする

多くのウェブマスターは、毎日ウェブサイトの統計情報(cnzz統計、Baidu統計、51la)を確認す...

次世代インターネット構築に関する意見が発表され、ファーウェイ、ZTEなどの企業が最初に恩恵を受けた

3月29日、国家発展改革委員会は「第12次5カ年計画期間における次世代インターネットの開発と建設に関...

山達文学の分裂と変化:利益と運命の交差点

中国のインターネット業界で最も経営が難しいこの企業の中核事業とチームはなぜ分裂したのか?これはオンラ...

キーワード調査: 検索エンジンに追いつく必要がある

SEOを行う人はウェブサイトのキーワードの重要性を理解しており、業界キーワードの調査を専門に行う人も...

ソーシャルメディアマーケティングを正しく見る

ソーシャルメディアは、ユーザーに参加の大きな場を提供する新しいタイプのオンラインメディアです。Wei...

Aruba が AWS Transit Gateway Connect をサポートし、ブランチ オフィスから AWS への自動接続を実現

最近、AWS re:Invent 2020 カンファレンスで、Aruba は SD-WAN 製品ポー...

SEO コンテンツ作成ガイド ウェブサイトのランキングを向上させる優れたコンテンツの作成方法

SEO コンテンツの執筆に関しては、多くのウェブマスターが次のように考えるでしょう。「何を言えばいい...

ドメイン名投資のホットスポットに関する議論: デジタル、ピンイン、クリエイティブ ドメイン名のホットスポットは何ですか?

ドメイン名投資はウェブマスターコミュニティの導火線に火をつけました。多くのウェブマスターがこのアイデ...

クラウド環境における Java の水平拡張と負荷分散戦略

クラウド コンピューティング テクノロジーの急速な発展により、ますます多くのアプリケーションがクラウ...

検索エンジンがウェブサイトをインデックスしないいくつかの理由の簡単な分析

友人たちはよくZhugenuoに、なぜあなたの独立したブログ記事は公開後すぐに収集されるのかと尋ねま...

トレンド |仮想化は負け、クラウド、SDN、SD-WAN が C の位置を獲得しました。

企業のネットワーク管理者にとって、IT の最大の焦点はクラウド コンピューティングとソフトウェア定義...

インターネット技術起業家は、2 つのセッションで提案を行う際にどのような点に重点を置いていますか?

[[258735]] 3月3日、毎年恒例の全国「二会期」が正式に始まりました。 「両会」の季節が始ま...