フォーカス |機械学習に役立つ 7 つのクラウド コンピューティング サービス

フォーカス |機械学習に役立つ 7 つのクラウド コンピューティング サービス

データ分析は、多くの組織がクラウド コンピューティング プラットフォーム上で実行する主要なコンピューティング タスクです。これは、IT 技術者がプログラミングに長けていること、科学者の研究室機器をコンピューターに直接接続してデータを記録する必要があること、またはデータ セットが非常に大きいため移行に非常に時間がかかることなどが理由であると考えられます。

[[247547]]

理由が何であれ、科学者やデータアナリストはリモート コンピューティングをますます採用するようになっています。機械学習、人工知能、データ分析のためのクラウドベースのツールの数が急増しています。これらのアプリケーションの一部はクラウドベースのドキュメント編集や電子メールであり、技術者はさまざまなデバイスから中央リポジトリにログインして、移動中やビーチなど遠隔地から作業することができます。クラウド コンピューティングはファイルのバックアップと同期を処理し、ワークフローを合理化します。

実際、データ分析はクラウド コンピューティングに適しています。データ セットが大きい場合、クラウド コンピューティング ユーザーは、レンタルしたハードウェア設備で大規模なジョブを実行し、作業をより速く、より効率的に完了できます。ユーザーはコンピュータを起動して処理に多くの時間を費やす必要はありません。クラウド コンピューティングでは、大容量のメモリを搭載した数十のクラウド コンピューティング インスタンスを起動し、数分以内に処理結果を観察するだけで済むため、時間とコストを節約できます。

クラウド コンピューティングを導入する組織には一定のリスクもあり、最大のリスクはユーザーのプライバシーに関する懸念です。一部のデータ分析にはユーザーの個人情報が含まれます。人々は研究室でデータを扱う際のセキュリティ問題に慣れすぎていて、クラウドで何が起こっているのかを知ることが困難です。

クラウド コンピューティング プロバイダーが採用しているプラ​​イバシー保護の慣行に人々が安心できるようになるまでには、しばらく時間がかかるでしょう。クラウド コンピューティング プロバイダーがセキュリティ コンサルタントをさらに雇用する可能性が高いことが認識されています。パーソナルコンピュータがグローバルインターネットに接続されている場合、それはすでにクラウドコンピューティングの一部であると言えるでしょう。

幸いなことに、いくつかの回避策があります。最も簡単な方法は、個人情報をランダムな ID に置き換えるなどの技術を使用してデータを匿名化することです。この方法は完璧ではありませんが、ハッカーがクラウド コンピューティングの防御を突破した後に発生する可能性のあるトラブルを大幅に軽減できます。

他にもいくつか利点があります。一部のプロバイダーはデータセットを一般に公開またはオープンソース化することがあり、これによりさらに多くの組み合わせが生成される場合があります。一部のクラウド コンピューティング プロバイダーは、ユーザーを引き付けるために独自のデータ セットを管理し、ストレージ コストを削減しています。ユーザーが希望する場合は、製品の売上と天気や太陽黒点などの公開データセット内の他の情報を相関させることができます。知るか?ここには奇妙な相関関係がたくさんあります。

ここでは、データ セット内の相関関係とシグナルを理解するのに役立つ 7 つの異なるクラウドベースの機械学習サービスを紹介します。

1. Amazon SageMaker

Amazon は、機械学習ツールをより使いやすくするために SageMaker を開発しました。 Amazon SageMaker は、さまざまな AWS ストレージオプション (S3、Dynamo、Redshift など) を組み合わせ、一般的な機械学習ライブラリ (TensorFlow、MXNet、Chainer など) の Docker コンテナにデータを転送します。最終モデルが独自の API としてデプロイされるまで、すべての作業は Jupyter Notebook を使用して追跡できます。 SageMaker はデータを Amazon のパブリッククラウド内のサーバーに移動するため、プロセスではなくアルゴリズムの検討に集中できます。アルゴリズムをローカルで実行したい場合は、いつでも Docker イメージをダウンロードして簡単に実行できます。

2. Microsoft Azure 機械学習

Microsoft は機械学習の将来を見据え、データ内のシグナルを見つけるための洗練されたグラフィカル ツールである Machine Learning Studio で機械学習に全力を注いでいます。 AI用のスプレッドシートのようなものです。数字を理解するためのフローチャートを作成するためのドラッグ アンド ドロップ インターフェイスがあります。ドキュメントには「コーディングは不要」と記載されていますが、これは技術的には正しいのですが、コードの作成に煩わされることなく効果的に使用するには、ユーザーはプログラマーのように考える必要があります。しかし、構文エラー、データ型、その他のプログラミングの楽しさが恋しい場合は、Python、R、またはその他のさまざまなオプションで記述されたモジュールをインポートできます。

最も興味深い選択肢は、Microsoft が AI から学んだことを活用して予測モデルを Azure パブリック クラウドで実行される Web サービスに変換するためのインフラストラクチャを追加したことです。そのため、ユーザーはキーボードとマウスをクリックするだけで、トレーニング セットを構築し、モデルを作成し、Azure サービスから JSON パケットで回答を提供できるようになります。

3. ビッグML

BigML は、BigML クラウド プラットフォームで使用したり、ローカルにインストールしたりできるデータ分析用のハイブリッド ダッシュボードです。メイン インターフェースは、数十の機械学習分類器、クラスタリング器、回帰器、異常検出器による分析を待機しているすべてのファイルを一覧表示するダッシュボードです。クリックすると結果が表示されます。

最近、同社は、スタックが有用な回答を提供する能力を強化する新しいアルゴリズムに重点を置いています。新しい Fusion コードは、複数のアルゴリズムの結果を統合して精度を向上させることができます。

BigML 独自のサーバー上の豊富な無料枠を活用することにより。ユーザーは、AWS、Azure、または Google Cloud Platform 上にプライベート デプロイメントを構築することもできます。これがまだ比較的公開されている場合、ユーザーのプライベート サーバーに展開されます。

4. データブリックス

Databricks ツールセットは、Apache Spark の開発者によって構築されました。彼らは、オープンソースの分析プラットフォームを採用し、いくつかの重要な速度強化を追加し、巧妙な圧縮とインデックス作成によってスループットを向上させました。 Delta と呼ばれるハイブリッド データ ストアは、大量のデータを保存して迅速に分析できる場所です。新しいデータが到着すると、既存のメモリに圧縮され、迅速に再分析できます。

Apache Spark の標準的な分析ルーチンはすべてこのデータで実行できますが、コードを分析するための統合ノートブックなど、Spark インフラストラクチャに待望の改善がいくつかあります。

Databricks は AWS および Azure と統合されており、消費量とパフォーマンスに基づいて価格が設定されます。各コンピューティング エンジンは Databrick 単位で測定されます。企業はより高速なモデルに対してより多くの費用を支払う必要があります。

5. データロボット

ここで紹介する方法の多くにより、ユーザーはキーボードをクリックするだけで機械学習モデルを構築できます。 DataRobot は、キーボードをクリックするだけで、数百のモデルを同時に構築できると主張しています。モデルが完成すると、ユーザーはそれらを調べて、より優れたモデルを見つけ、予測を続けることができます。その秘密は、超並列処理エンジンを使用すること、つまり、複数のマシンを使用して分析を実行することです。

DataRobot は、新しいアルゴリズムを実装し、現在のアルゴリズムを拡張することで拡大しています。同社は最近、Nutonian を買収しました。同社の Eureqa エンジンは、自動化された機械学習プラットフォームの時系列および分類モデルの作成機能を強化するはずです。このシステムは、より上級のユーザー向けに Python API も提供します。

DataRobot は、DataRobot Cloud を通じて、または組み込みエンジニアに付属するエンタープライズ ソフトウェア バージョンとして利用できます。

6. Google Cloud 機械学習エンジン

Google は、データ内のシグナルを見つけるための標準的なオープンソース ライブラリの 1 つである TensorFlow に多額の投資を行っており、現在、ユーザーは Google Cloud Platform でそれを試すことができます。 Google Cloud Machine Learning Engine の一部のツールはオープンソースであり、誰でも無料でダウンロードできます。また、一部は Google Cloud Platform の商用オプションの一部です。これにより、コードの大部分がオープンソースであり、Mac、Windows、Linux マシンのいずれでも実行できるため、ユーザーは自由に探索でき、ロックインを回避できます。

さまざまなツールもいくつかあります。最も簡単に導入できるツールは Colaboratory かもしれません。これは、Jupyter ノートブックを Google の TensorFlow バックエンドに接続し、ユーザーがコードを記述して実行を確認できるようにします。 Google は、実験を実施したい科学者向けに TensorFlow Research Cloud も提供しています。適切な場合、ユーザーは GPU または TPU を使用して、Google の高速ハードウェア上で機械学習モデルを実行できます。

7. IBM ワトソンスタジオ

Watsonは現在、IBMのリソースのほとんどを人工知能に投入している。 IBM Watson Studio は、クラウドまたはオンプレミスでデータを探索し、モデルをトレーニングするためのツールです。データが入ると、その結果が会社のダッシュボードに美しいグラフで表示されます。

最大の違いは、Watson Studio のデスクトップ バージョンかもしれません。ユーザーはクラウドベースのバージョンを使用してデータを探索し、弾力性のあるリソースと集中型リポジトリのすべての利点を享受できます。あるいは、ユーザーはファイアウォールのプライバシーとデスクトップの利便性を組み合わせて同じことを行うことができます。

各クラウドプラットフォームの機械学習モデル

多くの人は AI 研究のために 1 つのダッシュボードを選択したいと考えますが、選択肢を増やしても問題はありません。すべての前処理とデータクリーニングが完了すると、ユーザーは同じ CSV 形式のデータをこれらすべてのサービスに入力し、結果を比較して最適な選択肢を見つけることができます。これらのサービスの中には、すでにアルゴリズム間の自動比較機能を提供しているものもあります。複数使用しないのはなぜですか?

ユーザーは、進化を続ける数多くのオープン スタンダードも活用できます。たとえば、Jupyter ノートブックは通常、大きな変更を加えなくても実行されます。ユーザーは 1 つのプラットフォームで開発を行い、その後、ほとんどのコードをデータとともに移動して、別のプラットフォームで新しいアルゴリズムや異なるアルゴリズムをテストできます。

標準化にはまだ程遠い状況で、多くのアルゴリズムには奇妙で説明のつかない違いがあります。したがって、ユーザーは 1 つのアルゴリズムや 1 つのトレーニング方法だけを考慮するのではなく、できるだけ多くの異なるモデリング ツールを使用するようにする必要があります。

<<:  Oracle Cloudは顧客にエンドツーエンドのデータセキュリティを提供します

>>:  オラクル、企業向けにパーソナライズされたデジタルアシスタントを提供

推薦する

外国語放送局からの素晴らしい旅

BaiduでSEOを検索すると、トップページにはまだ見慣れたサイトがいくつか表示されますが、2ページ...

権威あるウェブサイトを理解する: コンテンツの権威とナビゲーションの権威

私はSiyiouからのソフトな記事を見ました。それはいくつかの権威あるウェブサイトの判断について述べ...

ローカルカーウェブサイト共同購入プランプロモーション実践

建国記念日の前夜、4S ストアから 10 月 1 日の共同購入イベントの提案を受け、そのプロモーショ...

WeChatマーケティングの最大の魅力:不確実性がユーザーを「中毒」にする

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますもし紅包が...

おすすめ: itldc: VPS 50% オフ、7 つのコンピュータ ルーム、無制限のトラフィック、Windows 付き

itldc で​​は、Sysadmin Day というイベントを開催しており、このイベントではすべて...

Huawei CloudとCNCFが共同でコンテナ技術とシナリオベースのアプリケーション間のギャップを埋める

[51CTO.comからのオリジナル記事] Huawei CloudとCNCFの関係は2015年にま...

Baidu 入札プロモーションでクリックはあっても相談コンバージョンがない理由について詳しく説明します。

業界市場の発展に伴い、多くの業界のウェブサイトはトラフィック変換のボトルネックに陥っており、短期間で...

PinduoduoはTaobaoトラフィックの上流になりつつある

私のような老人にとって、 Pinduoduo を理解するのはまだ少し難しいですが、業界では、Alib...

nfphosting - ロサンゼルス QN データセンター VPS 年間支払いは 3.99 ドルから、独立した IP

nfphosting は 2006 年に設立された新しい会社です。現在は、仮想ホスティング、再販業者...

もしある日検索エンジンが消えてしまったら、私たちのサイトはどこへ行くのでしょうか?

イベントレビュー:6月22日、中国最大の検索エンジンであるBaiduが大量のウェブサイトを禁止しまし...

Mituo テンプレート: ハードウェア製品の Web サイト テンプレートの推奨

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますハードウェ...

著作権局:オンラインビデオの著作権侵害との戦いを支援

北京時報(王盛記者)このほど、北京で「中国ネット動画著作権侵害対策共同行動」が正式に開始された。この...

ストレージを改善する 5 つのマルチクラウド ユースケース

マルチクラウド ストレージ テクノロジーが主流になるにつれて、その使用事例は急速に増加しています。し...

アゼルバイジャン VPS: yer、月額 3.98 ドル、1G メモリ/1 コア/25g SSD/1T トラフィック

Yer hosting は 2005 年に設立されました。アゼルバイジャンの会社で、主にアゼルバイジ...

ネットセレブやライブストリーミング販売の後に、想像力を働かせる余地はどれくらいあるのでしょうか?

突然の流行により、ライブストリーミングは予想外に全国的な現象となった。 2006年頃から「ライブスト...