たった1行のコードで、Pandasは数秒で分散化され、テラバイトレベルのデータを素早く処理できる。

たった1行のコードで、Pandasは数秒で分散化され、テラバイトレベルのデータを素早く処理できる。

私は Pandas で数十 KB のデータの処理スクリプトのテストと作成を終えたばかりですが、今度は数百 TB の同様の大規模なデータセットが目の前にあります。この時点で、次のようなジレンマに直面するかもしれません。

  • 引き続きPandasを使用しますか?かなり遅い可能性があり、数百 TB のデータは扱いにくいかもしれません。

(ಥ_ಥ) ただし、Spark と分散システムの学習曲線は非常に急です。 Pandas で書かれた処理スクリプトはすべて役に立たない。とても悲しいです。

落胆しないでください。Spark はもう必要ないかもしれません。

現在カリフォルニア大学バークレー校の RiseLab で研究されている Pandas on Ray は、Pandas の実行速度を速め、TB レベルのデータを処理できるように設計されています。この DataFrame ライブラリは、API を変更せずにパフォーマンス、速度、スケーラビリティを向上させ、既存の Pandas ユーザーのニーズを満たすことを目的としています。

研究チームによれば、コードを 1 行置き換えるだけで、8 コア マシン上の Pandas クエリを 4 倍に増やすことができるとのことです。

実際のところ、これは Pandas のいくつかの関数を、Ray に基づいて実行される API に置き換えるだけです。 Ray は、今年初めにバークレーが立ち上げた分散 AI フレームワークです。わずか数行のコードで、家庭用コンピュータ上のプロトタイプ アルゴリズムを、大規模な展開に適した分散コンピューティング アプリケーションに変換できます。

Pandas on Ray のパフォーマンスは、別の分散 DataFrame ライブラリ Dask ほど良くはありませんが、使いやすく、Pandas とほぼ同じです。ユーザーは分散コンピューティングを理解する必要はなく、新しい API を学習する必要もありません。

Dask とは異なり、Ray は Apache Arrow の共有メモリ オブジェクト ストレージを使用するため、データをシリアル化してコピーすることなくプロセス間通信が可能になります。

8 コア、32G メモリの AWS m5.2xlarge インスタンスで csv を読み込む場合の Ray、Dask、Pandas のパフォーマンス比較

Pandas をラップし、データと計算を透過的に分散します。ユーザーは、システムまたはクラスターにいくつのコアがあるかを知る必要はなく、データの分散方法を指定する必要もなく、以前の Pandas ノートブックを引き続き使用できます。

前述したように、Ray で Pandas を使用するには、コードを 1 行置き換える必要がありますが、これは実際にはインポート ステートメントを置き換えるだけです。

  1. # pandas をpdとしてインポート
  2. ray.dataframeをpdとしてインポートする

この時点で、次のように表示されます。

初期化後、Ray はマシン上で使用可能なコアを自動的に識別します。以降の使い方はPandasと同じです。

Pandas on Ray はまだ初期段階であり、Pandas 機能のサブセットを実装しています。株価変動のデータセットを例にとると、Pandas がサポートする関数には、データのチェック、増加日数のクエリ、日付によるインデックス作成、日付によるクエリ、株価が上昇したすべての日付のクエリなどがあります。

このプロジェクトの最終的な目標は、Ray に Pandas API の機能を完全に実装し、ユーザーがクラウド上で Pandas を使用できるようにすることです。

現在、Berkeley RiseLab の研究者は 45 日間で Pandas DataFrame API の 25% を実装しました。

[[221787]]

革命はまだ成功しておらず、プロジェクトは継続中です。これに取り組んでいる人々は次のとおりです:

デビン・ピーターソーン、ロバート・西原、フィリップ・モリッツ、サイモン・モー、クナル・ゴサール、ヘレン・チェ、ハリカラン・スッバラジ、ピーター・ヴィアマン、ローハン・シン、ジョセフ・ゴンザレス、イオン・ストイカ、アンソニー・ジョセフ

  • Pandas on Ray についてさらに詳しく知りたい場合は、RiseLab ブログのオリジナル記事をご覧ください: https://rise.cs.berkeley.edu/blog/pandas-on-ray/
  • Pandas on Ray を試すには、このドキュメントを参照してください: https://rise.cs.berkeley.edu/blog/pandas-on-ray/
  • Ray チームにリクエストを行うには、GitHub で問題を開いてください: https://github.com/ray-project/ray/issues
  • Ray に興味がある方は、以下の論文をお読みください: https://arxiv.org/abs/1712.05889

<<:  PBレベルの分散ストレージであるCephを見てみましょう

>>:  Appleの技術コンサルタントと議論しないでください

推薦する

servarica-1.5g メモリ/xen/20g ハードディスク/1T トラフィック/1G ポート/月額 7 ドル (Win 互換)

Servarica は 2 年間運営されています。現在、XEN ベースの VPS の特別プロモーショ...

適切なクラウド コンピューティング サービス プロバイダーを選択する方法

今日、クラウド コンピューティングの使用が増加しており、市場投入までの時間の短縮、プラットフォームの...

百度は検索結果を百科事典のようにする「ナレッジグラフ」機能を導入した疑いがある

最近、一部のネットユーザーが、百度で特定の人物のキーワードを検索すると、その人物に関する情報が表示さ...

ウェブマスターの皆さん、Baiduの共有ボタンを大事に扱い、盲目的にトラフィックを増やさないようにしてください。

ソーシャル メディアの人気により、ウェブマスターは多忙になり、より多くのソーシャル メディア マーケ...

ニュースソースのソフト記事は悲惨なことになるかもしれない。Baiduは低品質のニュースサイトに対処する

みなさんこんにちは。私はMuzi Chengzhouです。ソフト記事の役割は誰もが知っています。A5...

この2つの事例を通じて、ソフトコンテンツマーケティングに対する私の理解はより高いレベルにまで高まりました。

私はしばらくソフトテキストプロモーションを行っています。最近、上司から利益について尋ねられました。こ...

ウェブサイトのユーザー エクスペリエンス デザイン分析: eBay の再設計体験の共有

少し前に、eBay は新しいバージョンのリリースを発表しました (www.eBay.com/feed...

5月の国内サーバーブランド:デルが3位に返り咲き、ASUSは10位

IDC Review Network (idcps.com) は 5 月 27 日に次のように報告し...

Kubernetesの未来はコンテナではなく仮想マシンにある

[[254590]] Kubernetes は今年、私のキャリアにとって非常に重要であり、新年も引き...

知乎は新たな活路を模索しているのだろうか?

今年は知乎の設立10周年にあたり、このタイミングで知乎は米国で株式を公開しました。今年3月25日、知...

クラウド コンピューティングは、家電製品の企業の将来にどのような革命をもたらすのでしょうか?

[51CTO.com クイック翻訳] 新しいテクノロジーの出現、経済の不確実性、家電業界に対する規制...

企業は本当にマルチクラウドの準備ができているのでしょうか?

大企業のほとんどは複数のクラウドを使用しており、すべての開発、データ サイエンス、シャドー IT 作...

サービス指向製造業のサプライチェーン管理: ハイアール COSMOPlat モデル

最近、工業情報化部は2017年のサービス指向製造モデル企業(プロジェクト、プラットフォーム)のリスト...

OpenVirtuals - 年間 20 ドル / 512 MB メモリ / 180 g ハード ドライブ / 2 T トラフィック / アトランタ

OpenVirtuals.com は、大容量ハード ドライブを備えた VPS をいくつか設定していま...

新しいウェブサイトのインターネットマーケティングを行う方法

新しいサイトでは、このタイプの顧客に対応する過程で、顧客が常にお金を稼ぐ方法、お金を早く稼ぐ方法、そ...