たった1行のコードで、Pandasは数秒で分散化され、テラバイトレベルのデータを素早く処理できる。

たった1行のコードで、Pandasは数秒で分散化され、テラバイトレベルのデータを素早く処理できる。

私は Pandas で数十 KB のデータの処理スクリプトのテストと作成を終えたばかりですが、今度は数百 TB の同様の大規模なデータセットが目の前にあります。この時点で、次のようなジレンマに直面するかもしれません。

  • 引き続きPandasを使用しますか?かなり遅い可能性があり、数百 TB のデータは扱いにくいかもしれません。

(ಥ_ಥ) ただし、Spark と分散システムの学習曲線は非常に急です。 Pandas で書かれた処理スクリプトはすべて役に立たない。とても悲しいです。

落胆しないでください。Spark はもう必要ないかもしれません。

現在カリフォルニア大学バークレー校の RiseLab で研究されている Pandas on Ray は、Pandas の実行速度を速め、TB レベルのデータを処理できるように設計されています。この DataFrame ライブラリは、API を変更せずにパフォーマンス、速度、スケーラビリティを向上させ、既存の Pandas ユーザーのニーズを満たすことを目的としています。

研究チームによれば、コードを 1 行置き換えるだけで、8 コア マシン上の Pandas クエリを 4 倍に増やすことができるとのことです。

実際のところ、これは Pandas のいくつかの関数を、Ray に基づいて実行される API に置き換えるだけです。 Ray は、今年初めにバークレーが立ち上げた分散 AI フレームワークです。わずか数行のコードで、家庭用コンピュータ上のプロトタイプ アルゴリズムを、大規模な展開に適した分散コンピューティング アプリケーションに変換できます。

Pandas on Ray のパフォーマンスは、別の分散 DataFrame ライブラリ Dask ほど良くはありませんが、使いやすく、Pandas とほぼ同じです。ユーザーは分散コンピューティングを理解する必要はなく、新しい API を学習する必要もありません。

Dask とは異なり、Ray は Apache Arrow の共有メモリ オブジェクト ストレージを使用するため、データをシリアル化してコピーすることなくプロセス間通信が可能になります。

8 コア、32G メモリの AWS m5.2xlarge インスタンスで csv を読み込む場合の Ray、Dask、Pandas のパフォーマンス比較

Pandas をラップし、データと計算を透過的に分散します。ユーザーは、システムまたはクラスターにいくつのコアがあるかを知る必要はなく、データの分散方法を指定する必要もなく、以前の Pandas ノートブックを引き続き使用できます。

前述したように、Ray で Pandas を使用するには、コードを 1 行置き換える必要がありますが、これは実際にはインポート ステートメントを置き換えるだけです。

  1. # pandas をpdとしてインポート
  2. ray.dataframeをpdとしてインポートする

この時点で、次のように表示されます。

初期化後、Ray はマシン上で使用可能なコアを自動的に識別します。以降の使い方はPandasと同じです。

Pandas on Ray はまだ初期段階であり、Pandas 機能のサブセットを実装しています。株価変動のデータセットを例にとると、Pandas がサポートする関数には、データのチェック、増加日数のクエリ、日付によるインデックス作成、日付によるクエリ、株価が上昇したすべての日付のクエリなどがあります。

このプロジェクトの最終的な目標は、Ray に Pandas API の機能を完全に実装し、ユーザーがクラウド上で Pandas を使用できるようにすることです。

現在、Berkeley RiseLab の研究者は 45 日間で Pandas DataFrame API の 25% を実装しました。

[[221787]]

革命はまだ成功しておらず、プロジェクトは継続中です。これに取り組んでいる人々は次のとおりです:

デビン・ピーターソーン、ロバート・西原、フィリップ・モリッツ、サイモン・モー、クナル・ゴサール、ヘレン・チェ、ハリカラン・スッバラジ、ピーター・ヴィアマン、ローハン・シン、ジョセフ・ゴンザレス、イオン・ストイカ、アンソニー・ジョセフ

  • Pandas on Ray についてさらに詳しく知りたい場合は、RiseLab ブログのオリジナル記事をご覧ください: https://rise.cs.berkeley.edu/blog/pandas-on-ray/
  • Pandas on Ray を試すには、このドキュメントを参照してください: https://rise.cs.berkeley.edu/blog/pandas-on-ray/
  • Ray チームにリクエストを行うには、GitHub で問題を開いてください: https://github.com/ray-project/ray/issues
  • Ray に興味がある方は、以下の論文をお読みください: https://arxiv.org/abs/1712.05889

<<:  PBレベルの分散ストレージであるCephを見てみましょう

>>:  Appleの技術コンサルタントと議論しないでください

推薦する

王大智佳は30GのDDoS攻撃を受け、ハッカーは数百万ドルの報酬で雇われたと主張した

3月20日、中国最大かつ最も影響力のあるP2Pオンライン融資業界ポータルである王大智佳は、ウェブサイ...

クラウドネイティブ DevOps を実装するには?

[[376328]]クラウドネイティブ DevOps とは何ですか? Alibaba ではどのように...

モバイルウェブサイトを構築する上で注意すべき事項について話す

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますモバイルイ...

arubacloud-1 ユーロ/VMware/1g メモリ/20g SSD/2T トラフィック/英語、フランス語、ドイツ語、イタリア語、チェコ語

arubacloud.com もまた驚きでした。英国、フランス、ドイツ、イタリア、チェコ共和国の 5...

Xinzhan Talent Networkがオフラインで迅速に利益を上げる方法についての簡単な説明

皆さんこんにちは。私は大泉州人材ホットラインのウェブマスターです。前回「人材ネットワークのオフライン...

ホットトピックブログ(Weibo)戦略を構築するための3つのステップ

この記事は、伝統的な企業のオンラインマーケティングの実際のニーズに合わせて作成されています。ブログマ...

raksmart: ロサンゼルスのサーバーアクティビティ、月額 76 ドルから、10 Gbps の帯域幅/無制限のトラフィック、クラスターサーバーを含む

現在、raksmart はロサンゼルス データ センターの独立サーバー向けの特別プロモーションを実施...

2019年のブラックフライデーに関する情報はあまりないので最後にまとめておきます

その年の感謝祭イベントからブラックフライデー、そして今日のサイバーマンデーまで、IDC業界全体では基...

エッジコンピューティングへの投資はどこに向かうのでしょうか?

2020 年の初めには、エッジ コンピューティングは最高の盛り上がりを見せていたようです。では、この...

保険の情報化の発展が加速し、クラウドコンピューティングが新たな変化をもたらす

クラウド コンピューティングは、新興技術として、パーソナル コンピュータとインターネットに続く第 3...

edgenat: 618 イベント、30% オフ、完全に最適化された回線、香港 VPS\韓国 VPS\米国 VPS、韓国独立サーバー

edgenat は毎年恒例の 618 イベントを開始しました。韓国の CN2 VPS、香港の CN2...

中小企業にとってのクラウド コンピューティングのメリット トップ 10

10 の魅力的なメリットを確認し、移行を成功させるために適切なクラウド サービス プロバイダーを選択...

WordPress 5.x が気に入らないですか? WordPressのバージョンをダウングレードしましょう!

WordPress 5.4 から 5.5 へのアップグレードでは多くの変更があり、アップグレード後に...

5分で「SEO」を理解して、SEOをもう謎ではなくなる

SEO はウェブサイトの最適化であり、その目的は、検索者が簡単に閲覧できるように、検索エンジンでキー...

新しいウェブマスターがウェブサイトモデルを選択するためのゴールドスタンダード

SEO ビジネスは数世代にわたって発展してきました。あらゆるところで壁にぶつかって手探りで進んでいた...