データサイエンスをクラウドに移行する 5 つの理由

データサイエンスをクラウドに移行する 5 つの理由

データが溢れる世界において、データ サイエンティストは企業が洞察を生み出し、予測を立てて、よりスマートなビジネス上の意思決定を行うのを支援します。通常、これらのデータ サイエンティストは統計分析と数学モデリングの専門家であり、R や Python などのプログラミング言語に精通しています。

[[258236]]

しかし、少数の大企業を除いて、ほとんどのデータ サイエンス作業は依然としてラップトップまたはローカル サーバーで行われており、エラーや遅延が発生しやすい非効率的なプロセスになっています。業界をリードする企業の一部がデータをどのように活用しているかを見ると、「ラップトップでのデータサイエンス」はすぐに絶滅するだろうことがわかります。これは、非効率であり、連携がうまくいかず、最適な結果を生み出すことができないためです。

データ サイエンティストがラップトップやローカル サーバーを捨てて、業務をクラウドに移行すべき 5 つの理由を紹介します。

1. データサイエンスはチームスポーツである

アルゴリズムと機械学習モデルは、企業の高度な分析と機械学習のパズルの一部を形成します。データ サイエンティスト、データ エンジニア、機械学習エンジニア、データ アナリスト、シチズン データ サイエンティストはすべて、これらの要素について連携して、ビジネス上の意思決定に役立つデータ主導の洞察を提供する必要があります。

データ サイエンティストがラップトップでモデルを構築する場合、データ エンジニアが作成したデータセットを自分のマシンにダウンロードして、機械学習モデルを構築およびトレーニングします。ビルドやトレーニングにはローカル サーバーが使用されることもありますが、多くの場合はラップトップ上で行われます。ラップトップやローカル サーバーで利用できる処理能力とメモリには限りがあるため、データ サイエンティストはデータセットをサンプリングして、より小さく管理しやすいデータセットを作成する必要があります。これらのサンプル セットはプロジェクトの実装に役立ちますが、データ サイエンス ライフサイクルの後の段階で多くの問題を引き起こす可能性があります。

データの陳腐化も問題になります。このデータのローカル コピーを使用すると、データ サイエンティストは不正確なグローバル スナップショットに基づいて予測を作成する可能性があります。クラウド コンピューティングの中核で、より大規模で代表的なサンプルを使用すると、この懸念を軽減できる可能性があります。

2. ビッグデータはスマートアルゴリズムを上回る

近年、大量の構造化データ、非構造化データ、半構造化データを迅速に処理して反復処理(機械学習モデルのトレーニングと調整)する能力により、人工知能と機械学習への関心が高まっています。ほとんどの場合、機械学習は、より大規模で代表的なサンプル セットでトレーニングを行うことでメリットを得られます。

企業は、半構造化インタラクション データ (Web サイト インタラクション ログ、イベント データ) と非構造化データ (電子メール テキスト、オンライン レビュー テキスト) を構造化トランザクション データ (ERP、CRM、注文管理システム) と組み合わせることで、強力なユース ケースを実現できます。機械学習からビジネス価値を引き出す鍵は、トランザクション データとインタラクション データを組み合わせた大規模なデータセットを持つことです。規模が大きくなるにつれて、データをクラウドまたは大規模なオンプレミス クラスターで処理する必要が生じることが多くなります。ノートパソコンを追加すると、プロセス全体にボトルネックが生じ、遅延が発生します。

3. データサイエンスには柔軟なインフラストラクチャが必要

今日、データ サイエンティストは、R、SciKit Learn、Spark MLlib、TensorFlow、MXnet、CNTK などの多くのオープン ソース 機械学習フレームワークを活用できます。ただし、ラップトップやローカル サーバー上でこれらのフレームワークのインフラストラクチャ、構成、環境を管理するのは面倒です。インフラストラクチャの管理に伴う追加のオーバーヘッドにより、コアとなるデータ サイエンス活動に費やす時間が奪われます。

ソフトウェア・アズ・ア・サービス・モデルでは、そのオーバーヘッドの多くがなくなります。クラウド コンピューティングの使用量ベースの価格設定モデルは、本質的にバースト的な機械学習ワークロードに適しています。クラウド コンピューティングでは、クラウド コンピューティング ベンダーがモデルのホスティングと展開のオプションを提供しているため、さまざまな機械学習フレームワークの探索も容易になります。さらに、Amazon Web Services、Microsoft Azure、Google Cloud などのクラウド コンピューティング サービス プロバイダーは、インテリジェントな機能をサービスとして提供しています。これにより、これらの機能を新しい製品やアプリケーションに統合する際の障壁が軽減されます。

4. 中央リポジトリによりデータの精度とモデルの監査可能性が向上

機械学習モデルの予測の精度と代表性は、モデルのトレーニングに使用されるデータによって決まります。 AI と機械学習のあらゆる実現は、高品質なデータを提供することで実現できます。たとえば、ターンバイターン方式の道順案内を提供するアプリは何十年も前から存在していますが、現在ではデータの量が増えたため、より正確になっています。

当然のことながら、AI 機械学習操作の大部分は、データ ロジスティクス、つまり機械学習を通じてモデル化しようとしている現実世界を反映するデータ セットの収集、ラベル付け、分類、管理を中心に展開されます。データユーザー数が多い企業にとって、データロジスティクスはすでに複雑です。データセットの複数のローカル コピーがこれらのユーザー間に分散している場合、問題はさらに悪化します。

さらに、セキュリティとプライバシーに関する懸念もますます注目されるようになっています。企業のデータ プロセスは、データのプライバシーとセキュリティの規制に準拠する必要があります。すべてのデータセットを一元管理するリポジトリにより、データの管理とガバナンスが簡素化されるだけでなく、データの一貫性とモデルの監査可能性も確保されます。

5. データサイエンスの高速化はビジネスに良い

上記のすべての理由により、ラップトップベースのデータ サイエンスの価値実現までの時間が遅れます。ラップトップまたはローカル サーバーで作業するデータ サイエンティストの一般的なワークフローでは、最初のステップは、データをサンプリングし、データセットをローカル システムに手動でダウンロードするか、ODBC ドライバーを介してデータベースに接続することです。 2 番目のステップは、RStudio、Jupyter Notebook、Anaconda ディストリビューション、機械学習ライブラリ、R、Python、Java などの言語バージョンなど、必要なすべてのソフトウェア ツールとパッケージをインストールすることです。

モデルを本番環境にデプロイする準備ができたら、データ サイエンティストはそれを機械学習エンジニアに引き渡します。次に、機械学習エンジニアは、コードを Java、Scala、C++ などの実稼働言語に変換するか、少なくともコードを最適化してアプリケーションの残りの部分と統合する必要があります。コードの最適化には、データ クエリを ETL ジョブとして書き換えること、コードをプロファイリングしてボトルネックを見つけること、ログ記録、フォールト トレランス、その他の運用レベルの機能を追加することが含まれます。

これらの各ステップには、遅延を引き起こす可能性のあるボトルネックがあります。たとえば、開発環境と運用環境間でソフトウェアまたはパッケージのバージョンに不一致があると、デプロイメントの問題が発生する可能性があります。 Windows または Mac 環境で構築されたコードは、Linux にデプロイすると確実に壊れます。

ラップトップでデータ サイエンスを実行すると、上記のすべての問題によりビジネス価値が失われます。データ サイエンスには、データの準備、モデルの構築、モデルの検証といったリソースを大量に消費するタスクが含まれます。データ サイエンティストは、解決しようとしているビジネス上の問題に適したモデルを見つけるまでに、さまざまな機能、アルゴリズム、モデル仕様を何百回も繰り返し試すことがよくあります。これらの反復にはかなりの時間がかかる可能性があります。インフラストラクチャと環境の管理、展開、コラボレーションに関するボトルネックにより、企業の価値実現までの時間がさらに遅れる可能性があります。

ラップトップやローカル サーバーに依存しているデータ サイエンティストは、開始の容易さと機械学習モデルの拡張および実稼働化の容易さの間で、賢明でないトレードオフを行っています。データ サイエンス チームは、ラップトップやローカル サーバーを使用するとより早く稼働を開始できますが、クラウド コンピューティング プラットフォームには、統合されたコンピューティング能力とストレージ、より簡単なコラボレーション、よりシンプルなインフラストラクチャ管理とデータ ガバナンス、そして最も重要な、実稼働までの時間の短縮など、長期的なメリットが大きくあります。

クラウドでデータ サイエンスと機械学習を始めるためのより迅速かつコスト効率の高い方法は、クラウドベースのデータ サイエンスと機械学習のプラットフォームを使用することです。少なくともこの使用例では、ラップトップの将来は限られています。

<<:  BATクラウドコンピューティング競争は同じ結論に終わりました。国内の一流メーカーと二流メーカーの間には明らかな差があります。

>>:  詳細かつ高度: JVM メモリ ヒープ レイアウトのグラフィカル分析

推薦する

調査:国内ウェブサイト活動製品の調査

原題: 研究: 国内活動製品の探究街中やオフラインでのアクティビティが人気を集めています。Gauin...

百度Kステーションの3つの状況を大胆に推測

Baidu のこのメジャー アップデートの後、多くのウェブマスターは、自分の Web サイトを Ba...

コットンクラウド:新年プロモーション、十堰高防御259元から、秦皇島BGPマルチシールド融合、AIインテリジェント保護100G

Mianhua Cloud は、江西楽旺ネットワークテクノロジー株式会社のクラウド コンピューティン...

ブランドマーケティングの根底にあるロジック

ポストトラフィック時代では、モバイルインターネットと消費者インターネットの配当は消え、コンテンツ電子...

三位一体: クラウドネイティブ、DevOps、プラットフォームエンジニアリング

クラウド ネイティブ、DevOps、プラットフォーム エンジニアリングはいずれも非常に複雑な概念であ...

迅雷 CEO 鄒聖龍の自伝: 迅雷の過去 10 年間の回想

もし彼が荀雷を創設していなかったら、鄒聖龍は今頃どうなっていただろうか?ダウンロード市場で絶対的な独...

クラウド コンピューティングとモノのインターネットは互いに補完し合いますが、その違いは何でしょうか?

クラウド コンピューティングとモノのインターネットは、今日の IT 業界における 2 つの主要な焦点...

ウェブサイトをリアルタイムで更新できるリアルタイムテクノロジーが1億ドルの投資を受ける

数日前、どんなウェブサイトが「リアルタイム」と呼べるのかと尋ねられました。 Weibo の「XX 件...

簡単な説明: WeChatコンテンツマーケティングの5つの方法

WeChatマーケティングは現在、非常に人気のあるマーケティング手法です。人々はWeChatマーケテ...

Baidu があなたのサイトをブロックしたのはなぜですか?

この記事は、SEO についてあまり知らない新しいウェブマスターや友人に向けたものです。専門家はこの記...

入札アカウントで資金が燃える7つの主な原因と解決策

私は最近、バイドゥの入札を説明するのが困難ですまた、これを深く理解していますここでは、Jiechen...

ユーザーニーズのデータ​​マイニングを通じてウェブサイトを修正する方法

タイトルからわかるように、この記事はコンバージョン率と、コンバージョン率を改善できるアイデアや方法に...

検索エンジンの罠についてどれだけ知っていますか?間違いやすい最適化テクニックを解き明かす

ウェブサイトを設計する際、知らないうちに最適化の罠に陥ってしまうことが多々あり、それが後のウェブサイ...

百度アプリは、いくつかのチャンネルでコンテンツ違反があったため、是正を求められた。

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスBaidu アプリはチャ...

知乎、小紅書、KOLたちの利益競争!

コンテンツの収益化に関する誇大宣伝は薄れ、プライベート ドメイン トラフィックの人気が新たな高みに達...