私は Pandas で数十 KB のデータの処理スクリプトのテストと作成を終えたばかりですが、今度は数百 TB の同様の大規模なデータセットが目の前にあります。この時点で、次のようなジレンマに直面するかもしれません。
(ಥ_ಥ) ただし、Spark と分散システムの学習曲線は非常に急です。 Pandas で書かれた処理スクリプトはすべて役に立たない。とても悲しいです。 落胆しないでください。Spark はもう必要ないかもしれません。 現在カリフォルニア大学バークレー校の RiseLab で研究されている Pandas on Ray は、Pandas の実行速度を速め、TB レベルのデータを処理できるように設計されています。この DataFrame ライブラリは、API を変更せずにパフォーマンス、速度、スケーラビリティを向上させ、既存の Pandas ユーザーのニーズを満たすことを目的としています。 研究チームによれば、コードを 1 行置き換えるだけで、8 コア マシン上の Pandas クエリを 4 倍に増やすことができるとのことです。 実際のところ、これは Pandas のいくつかの関数を、Ray に基づいて実行される API に置き換えるだけです。 Ray は、今年初めにバークレーが立ち上げた分散 AI フレームワークです。わずか数行のコードで、家庭用コンピュータ上のプロトタイプ アルゴリズムを、大規模な展開に適した分散コンピューティング アプリケーションに変換できます。 Pandas on Ray のパフォーマンスは、別の分散 DataFrame ライブラリ Dask ほど良くはありませんが、使いやすく、Pandas とほぼ同じです。ユーザーは分散コンピューティングを理解する必要はなく、新しい API を学習する必要もありません。 Dask とは異なり、Ray は Apache Arrow の共有メモリ オブジェクト ストレージを使用するため、データをシリアル化してコピーすることなくプロセス間通信が可能になります。 8 コア、32G メモリの AWS m5.2xlarge インスタンスで csv を読み込む場合の Ray、Dask、Pandas のパフォーマンス比較 Pandas をラップし、データと計算を透過的に分散します。ユーザーは、システムまたはクラスターにいくつのコアがあるかを知る必要はなく、データの分散方法を指定する必要もなく、以前の Pandas ノートブックを引き続き使用できます。 前述したように、Ray で Pandas を使用するには、コードを 1 行置き換える必要がありますが、これは実際にはインポート ステートメントを置き換えるだけです。
この時点で、次のように表示されます。 初期化後、Ray はマシン上で使用可能なコアを自動的に識別します。以降の使い方はPandasと同じです。 Pandas on Ray はまだ初期段階であり、Pandas 機能のサブセットを実装しています。株価変動のデータセットを例にとると、Pandas がサポートする関数には、データのチェック、増加日数のクエリ、日付によるインデックス作成、日付によるクエリ、株価が上昇したすべての日付のクエリなどがあります。 このプロジェクトの最終的な目標は、Ray に Pandas API の機能を完全に実装し、ユーザーがクラウド上で Pandas を使用できるようにすることです。 現在、Berkeley RiseLab の研究者は 45 日間で Pandas DataFrame API の 25% を実装しました。 革命はまだ成功しておらず、プロジェクトは継続中です。これに取り組んでいる人々は次のとおりです: デビン・ピーターソーン、ロバート・西原、フィリップ・モリッツ、サイモン・モー、クナル・ゴサール、ヘレン・チェ、ハリカラン・スッバラジ、ピーター・ヴィアマン、ローハン・シン、ジョセフ・ゴンザレス、イオン・ストイカ、アンソニー・ジョセフ
|
<<: PBレベルの分散ストレージであるCephを見てみましょう
>>: Appleの技術コンサルタントと議論しないでください
3月20日、中国最大かつ最も影響力のあるP2Pオンライン融資業界ポータルである王大智佳は、ウェブサイ...
[[376328]]クラウドネイティブ DevOps とは何ですか? Alibaba ではどのように...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますモバイルイ...
arubacloud.com もまた驚きでした。英国、フランス、ドイツ、イタリア、チェコ共和国の 5...
皆さんこんにちは。私は大泉州人材ホットラインのウェブマスターです。前回「人材ネットワークのオフライン...
この記事は、伝統的な企業のオンラインマーケティングの実際のニーズに合わせて作成されています。ブログマ...
現在、raksmart はロサンゼルス データ センターの独立サーバー向けの特別プロモーションを実施...
その年の感謝祭イベントからブラックフライデー、そして今日のサイバーマンデーまで、IDC業界全体では基...
2020 年の初めには、エッジ コンピューティングは最高の盛り上がりを見せていたようです。では、この...
クラウド コンピューティングは、新興技術として、パーソナル コンピュータとインターネットに続く第 3...
edgenat は毎年恒例の 618 イベントを開始しました。韓国の CN2 VPS、香港の CN2...
10 の魅力的なメリットを確認し、移行を成功させるために適切なクラウド サービス プロバイダーを選択...
WordPress 5.4 から 5.5 へのアップグレードでは多くの変更があり、アップグレード後に...
SEO はウェブサイトの最適化であり、その目的は、検索者が簡単に閲覧できるように、検索エンジンでキー...
SEO ビジネスは数世代にわたって発展してきました。あらゆるところで壁にぶつかって手探りで進んでいた...