クラウドコンピューティングのディープラーニングプラットフォームを構築し実践する唯一の方法

クラウドディープラーニングプラットフォームの定義クラウドディープラーニングとは何ですか?機械学習の発展に伴い、スタンドアロンの機械学習タスクではリソースの分離が不十分であったり、動的にスケーリングできないなどの問題が発生するため、クラウドコンピューティングベースのインフラストラクチャサービスが必要になります。クラウド機械学習プラットフォームは新しい概念ではありません。 Google、Microsoft、Amazon などにもそれぞれ対応するサービスがあります。ここにいくつかの典型的な例を挙げます。

[[204002]]

1 つ目は、Google Cloud の最下層でホストされている Google Cloud Machine Learning Engine です。上位層は、トレーニング、予測、モデルサービスなどの機械学習アプリケーションの抽象化をカプセル化し、上位層で Google の公式 TensorFlow オープンソースフレームワークをサポートします。

Amazon はまた、AWS の Iaas アーキテクチャをベースとし、Iaas 上で 2 つの異なるサービスを提供する Amzon 機械学習プラットフォームも立ち上げました。MXNet などのフレームワークを実行できる EC2 仮想マシンサービスと、画像、音声、自然言語処理用のさまざまな SaaS API です。

さらに、Microsoft は、独自のスケーラブルで拡張可能な Microsoft Azure クラウドサービスに基づいた Azure Machine Learning Studio サービスを提供しています。上位層では、ドラッグアンドドロップで使いやすい Studio ツールが提供され、Microsoft の公式 CNTK やその他のフレームワークがサポートされます。さらに、Microsoft にはさまざまな認識サービス、画像処理、その他の SaaS API もあります。これらのサービスはすべて、スケーラブルなクラウドインフラストラクチャプラットフォーム上で実行されます。

関連メーカーコンテンツ

畳み込みニューラルネットワークに基づく携帯電話での文書検出の実装アリババグループの1000億レベル店舗システムアーキテクチャのプラットフォーム技術実践 Ctripの第4世代ソフトロードアーキテクチャ SLB実践 BaiduのPBレベルデータウェアハウスの道路解釈 Paloオープンソースアーキテクチャ関連スポンサー

国内外の100名以上の技術専門家とともに、2017年の将来を予測する注目の技術を探る

上記はすべて、業界では比較的成熟したクラウドディープラーニングプラットフォームです。しかし、実際のエンタープライズ環境では、なぜクラウドマシンラーニングサービスを実装する必要があるのでしょうか?

まず第一に、外国のインフラは必ずしも国内企業が直接利用できるわけではない。 TensorFlow をローカルにのみインストールした場合、ベアメタル上でのみトレーニングを実行できます。デフォルトでは、ローカルでのリソースの分離はありません。 2 つのトレーニングタスクを同時に実行する場合は、リソース競合の問題を自分で解決する必要があります。リソースの分離がないため、リソースの共有は不可能です。マルチノードコンピューティングクラスターリソースがある場合でも、タスクが競合しないように手動で合意する必要があり、リソース共有によってもたらされる利便性を十分に活用することはできません。さらに、オープンソースの機械学習フレームワークには、クラスターレベルのオーケストレーション機能がありません。たとえば、分散 TensorFlow を使用する場合は、複数のサーバー上でプロセスを手動で開始する必要があります。自動フェイルオーバーとスケーリングはありません。そのため、多くの企業がすでに機械学習ビジネスを展開していますが、クラウド機械学習プラットフォームが不足しているため、導入、管理、クラスターのスケジュール設定などに依然として問題を抱えています。

では、クラウドマシンラーニングプラットフォームをどのように実装すればよいのでしょうか?

当社は階層化されたクラウドディープラーニングサービスを持っています。最初のレイヤーはプラットフォームレイヤーで、Google Cloud、Azure、AWS などの IaaS レイヤーに似ています。企業は、コンテナオーケストレーションツール Kubernetes や仮想マシン管理ツール OpenStack などのオープンソースソリューションも使用できます。このレイヤーでは、トレーニング、予測、モデルの起動、モデルの反復と更新などの機械学習関連の機能もサポートする必要があります。機械学習レイヤーでこれらの機能を抽象化し、対応する API インターフェースを実装します。最上位層はモデルアプリケーション層であり、TensorFlow、MXNet などのオープンソースの機械学習ライブラリをベースにすることができます。

クラウドマシンラーニング全体は、モデル開発、モデルトレーニング、モデルサービスなどの機能を含むスケーラブルなクラウドサービス上で実行され、完全なマシンラーニングワークフローを形成します。しかし、これは閉じたループではありません。実際には、オンライン機械学習モデルは時間に敏感であることがわかりました。たとえば、ニュース推奨モデルでは、ホットニュースのサンプル機能をタイムリーに更新する必要があります。このとき、クローズドループを開き、オンライン予測結果をオフライントレーニングタスクに追加する必要があります。その後、オンライン学習やモデルのアップグレードを通じて、完全な機械学習のクローズドループを実現できます。これらはスタンドアロンの機械学習プラットフォームでは実現できません。

クラウドディープラーニングプラットフォームの構築には、主に次のコンポーネントが含まれます。まず、クライアントがアクセスする API サービス。サービスプロバイダーとして、標準の RESTful API サービスを提供する必要があります。バックエンドは、Kubernetes クラスター、OpenStack クラスター、さらには独自に開発したリソース管理システムに接続できます。クライアントが API サービスを要求した後、プラットフォームは機械学習タスクのパラメータを解析し、Kubernetes または OpenStack を通じてタスクを作成し、実際に計算を実行するバックエンドのクラスターリソースにタスクをスケジュールする必要があります。トレーニングタスクの場合は、TensorFlow または MXNet ランタイム環境がプリインストールされているトレーニングタスクコンテナを起動できます。これらの抽象化レイヤーを通じて、スタンドアロンの TensorFlow トレーニングタスクを Kubernetes によって管理されるコンピューティングクラスターに送信して実行できます。モデルのトレーニングが完了すると、システムはモデルに対応するファイルをエクスポートし、最終的にクラウドディープラーニングプラットフォームの API サービスをリクエストすることで Kubernetes が理解できるリソース構成リクエストに変換し、クラスター内で TensorFlow Serving などのサービスを開始できます。さらに、Google Cloud-ML の最新 API に予測機能が追加されました。予測を行うときは、オンラインサービスとオフラインの予測タスクの両方を開始できます。プラットフォームでは、推論を実行し、予測結果を保存するために、対応する予測コンテナを作成するだけで済みます。このシンプルなカプセル化により、Google Cloud-ML に似たインフラストラクチャを実装できます。

アーキテクチャは階層化され抽象化されており、実装に必要なのは 3 つのステップだけです。

最初のステップは Docker イメージを作成することです。次の Dockerfile の例は、TensorFlow プロジェクトから抽出されたものです。実行可能な Docker イメージが公式から提供されています。カスタマイズされた起動スクリプトを追加することで、開発環境、モデルのトレーニング、モデルのサービングなどの機能を実装できます。

2 番目のステップは、標準 API サービスを実装することです。以下は Python 実装の例です。ユーザーはトレーニングタスクを開始するためのリクエストを送信します。サーバーは、リクエストのパラメータとコンテンツを解析し、Kubernetes などのバックエンドクラスターにタスクを送信できます。

3 番目のステップは、Kubernetes に必要なファイル形式を生成することです。分散 TensorFlow タスクを Kubernetes クラスターに送信して実行するための実装である次の JSON ファイルも GitHub にあります。

3 つの簡単な構成で、機械学習タスクをローカルからクラウドに移行するプロセスを完了し、クラウド機械学習サービスを実現できます。前述したように、クラウドディープラーニングプラットフォームでは、リソースの分離とリソースの共有をサポートする必要があります。これはどのように達成されるのでしょうか?実際、Kubernetes 自体にもこの抽象化が備わっています。ユーザーはリクエスト時に必要な CPU、メモリ、さらには GPU リソースを宣言し、cgroup や名前空間などのコンテナテクノロジを通じてリソースの分離を実現できます。一方、kube-scheduler はリソースのスケジューリングやリソースの共有などの機能を実装します。開発者は、自社開発またはパブリッククラウドのクラウド機械学習プラットフォームを実装することで、トレーニングタスクの送信やモデルサービスの作成などを簡単に行うことができます。しかし、実際の機械学習のシナリオでは、コンピューティングリソースの分離とスケジュールを解決するだけでは十分ではありません。また、データ処理、特徴量エンジニアリングなどの問題を統合する方法についても再考する必要があります。

クラウドディープラーニングプラットフォームを再定義する TensorFlow は、ディープラーニングに使用できる数値計算ライブラリです。 TensorFlow をベースに、MLP、CNN、RNN などの機械学習モデルを実装できます。しかし、Spark はもう必要ないということでしょうか?それらの関係は何ですか？

実稼働環境では、TensorFlow が既存のビッグデータ処理ツールを完全に置き換えるわけではないことがわかりました。データ分析と特徴量エンジニアリングには Spark を使用する必要があり、構造化データを保存およびクエリするにはデータウェアハウスなどのサービスも必要です。 TensorFlow は優れたディープラーニングフレームワークですが、実際のシナリオでは、ユーザーは PowerGraph によって処理されるいくつかのグラフ関係機能を入力として必要としますが、これは単一のフレームワークでは解決できません。 Azure ML Studio を使用すると、ユーザーのモデリングプロセスの整理、データのクリーンアップ、機能の抽出、トレーニング済みモデルの起動、モデル効果の推定などを行うことができますが、これらはすべて TensorFlow には欠けています。

先ほど、Google と同様の分散型、高可用性、クラスターオーケストレーションコンピューティングプラットフォームを実現できる Cloud Machine Learning を紹介しました。しかし、MapReduce、ストリーム処理、グラフコンピューティングなどのビッグデータ処理フレームワークも使用する必要があるため、これだけでは十分ではありません。 TensorFlow は、モデルトレーニングのための機械学習プロセス全体の一部にすぎません。 CPU と GPU を管理およびスケジュールするには、Kubernetes が必要になる場合もあります。機械学習ビジネスを完結させたいのであれば、Google Cloud-MLやAWSのサービスをただ提供するだけではなく、TensorFlow、Spark、Hadoop、Hive、Kubernetesなどのフレームワークの原理と応用を習得する必要があります。これが、クラウドマシンラーニングを再定義したい理由です。

客観的に見ると、私たちには多くの知識が必要ですが、主観的に見ると、私たちは何を望んでいるのでしょうか?私たちは、単なる機械学習フレームワークや一般的なコンピューティングプラットフォームではなく、データ処理からモデルのトレーニング、モデルの起動まで、完全なクローズドループサービスを実現したいと考えています。コードを書かずに特徴抽出ができるようになることを期待しています。機械学習のワークフローを実装するためのコードを記述しなくても簡単に記述できるようになることを願っています。さまざまな異機種コンピューティングリソースをサポートできる、非常に柔軟なインフラストラクチャが必要です。プラットフォームがスケーラブルであり、自動フェイルオーバーとスケーリングを実現できることを期待しています。前述のGoogle、Microsoft、Amazonが開発したクラウド機械学習プラットフォームに加え、さまざまなレベルのユーザーの利用ニーズを満たすために、IaaS、PaaS、SaaSなど複数の次元からの利用インターフェースも提供する必要があります。一方、これは、あらゆるドメインの専門家が簡単に使用できる、敷居の低い製品サービスである必要があります。

後ほど、クラウド機械学習プラットフォームを実際のシナリオで変革する方法を紹介し、Fourth Paradigm が提供する、敷居が低く、分散型で、可用性の高い Prophet 機械学習プラットフォームを紹介します。

クラウドディープラーニングにおける Fourth Paradigm の実践経験 Fourth Paradigm の Prophet Platform は、クラウドをベースとしたフルプロセスの機械学習製品です。ユーザーはWeb経由でProphet Platformにログインし、モデル研究や推定サービス機能を利用することができ、ドラッグアンドドロップで機械学習のワークフローを記述することができます。

使用手順は以下のとおりです。最初のステップはデータの前処理です。ユーザーは Spark コードを記述する必要はなく、オペレーターと呼ばれるアイコンをドラッグするだけで、データクリーニングなどのデータ前処理タスクを送信できます。データ分割演算子をドラッグすると、データセットをトレーニングセットとテストセットの 2 つの部分に分割し、そのうちの 1 つの部分を特徴抽出用に左側に残すことができます。一般的に、特徴抽出は Spark や Mapreduce などのオープンソースツールを使用して行うこともできますが、これには一定のプログラミングスキルとエンジニアリング能力が必要です。特徴抽出構成またはスクリプトを定義することで、ユーザーはコードを記述せずに元のデータセットの特徴エンジニアリングを実装できます。そして、独自に開発した高次元ロジスティック回帰、高次元 GBDT などのモデルトレーニング演算子を接続したり、TensorFlow や MXNet などのオープンソースフレームワークに基づいて実装されたアルゴリズムを接続したりすることができます。最後に、モデルトレーニングによってモデルファイルを取得した後、分割されたテストセットを使用してモデル予測が実行されます。一般的なモデル評価演算子は、AUC、ROC、Logloss などの指標を視覚化するためにも使用できます。

Prophet プラットフォームでは、ユーザーはフローチャートを作成するだけでデータ処理やモデルトレーニングなどの機能を実装でき、実際のシナリオで機械学習のビジネス上の問題を真に解決できます。 Prophet プラットフォームの最新バージョンでは、非常に高い効率で特徴エンジニアリング構成スクリプトを生成したり、独自に開発された LR および GBDT アルゴリズムの最適なパラメータを取得したりするなどの AutoML 機能が提供されています。これらの機能により、効果的なモデリングソリューションを取得するための反復的な作業が大幅に削減されるほか、データサイエンティストがデータの予備的な理解を得るのにも効果的に役立ちます。シナリオによっては、専門家によるモデリングで達成される結果と同等、あるいはそれを超える結果を達成することも可能です。

現在、Prophet プラットフォームは主に以下のターゲットシナリオを解決します。

データの導入を簡素化します。このプラットフォームでは、分散ストレージを使用するためにデータを必要とせず、トレーニングサンプルデータを RDBMS などの SQL データベースから直接インポートすることもできます。
データ分割を簡素化します。ユーザーは Spark コードを記述する必要はなく、データ分割後のストレージパスを提供するだけで済みます。また、割合による分割とルールによる分割の 2 つのモードもサポートされています。
特徴抽出を簡素化するために、プラットフォームは連続特徴と離散特徴の抽出と組み合わせをサポートしています。連続的なフィーチャの場合、自動マルチバケット化アルゴリズムをサポートします。また、一般的な特徴抽出方法をまとめ、スクリプトや構成にカプセル化します。ユーザーは、特定のロジックを自分でコーディングして実装する必要はなく、対応する構成を理解するだけで済みます。このプラットフォームは、既存の機能構成に基づいて機能の組み合わせを自動的に拡張し、モデルの効果を向上させることもできます。
モデルトレーニングを簡素化するために、プラットフォームはオープンソースの機械学習アルゴリズムと、Fourth Paradigm が独自に開発した超高次元 LR アルゴリズムの実装をサポートできます。この LR アルゴリズムは、数十億または数百億の特徴次元を持つ高速分散トレーニング問題を解決するためにパラメーターサーバーを実装します。学習率、正則化パラメータなどを自動的に調整できます。さらに、このプラットフォームは、線形フラクタル分類器などの拡張アルゴリズムも提供しており、人間の介入なしに数値的特徴をより効果的に活用できます。
モデル評価を簡素化し、モデル推定結果を取得した後、モデルの ROC、Logloss、KS などの指標を計算できます。さまざまなモデルの指標を計算する方法は似ています。ユーザーは実装コードを繰り返し記述する必要がなく、演算子をドラッグアンドドロップすることで直接呼び出すことができます。上記の問題はすべて Prophet プラットフォームによって解決されます。
モデルの起動を簡素化します。一般的な高次元 LR/GBDT モデルは、ワンクリックでオンラインサービスインスタンスとして公開できます。これにより、モデルの展開と運用および保守が簡素化されるだけでなく、オンラインインスタンスにはほとんどの機能エンジニアリングロジックも含まれるため、機能処理ロジックのオンラインバージョンを再度手動で開発する必要がなくなります。

現在、Prophet プラットフォームは、銀行、金融、インターネットなどのさまざまな業界で成功裏に適用されています。「Prophet Platform」に基づく不正防止モデルは、銀行が疑わしい取引を数ミリ秒で特定するのに役立ちます。同時に、ニュース、ビデオ、オーディオなどのコンテンツ推奨シナリオにおいても、「Prophet Platform」は主要なビジネス指標を大幅に改善することに成功しました。さらに、企業が機械学習を活用して業務効率を向上させることを可能にする一方で、より意義深いのは、「Prophet Platform」が機械学習の利用の敷居を大幅に下げることです。

機械学習ビジネス全体のための人工知能プラットフォームとして、Prophet はデータ処理、モデルトレーニングからモデルの起動、フィードバック更新までのシステムのクローズドループをカプセル化します。ユーザーは強力なプログラミングおよびエンジニアリング能力を必要としなくなりました。ドメイン専門家とビジネス担当者は、プッシュアンドプル方式を通じてモデリングと起動を実行できるため、企業はデータ収集からビジネス価値の向上まで、最終目標を迅速に達成できます。

特許取得済みのアルゴリズムの継続的な更新と、よりリアルタイムで効率的な極限エンジニアリングの最適化により、Future Prophet プラットフォームは人工知能の産業応用の敷居をさらに下げ、より多くの企業が人工知能サービスを享受できるように支援します。

<<: 調査結果：クラウド顧客の半数がマルチクラウドアーキテクチャを構築中

>>: ファーウェイは、世界で初めてクラウドネイティブコンピューティング財団（CNCF）認定のKubernetesサービスプロバイダーの1つになりました。

5G時代になりましたが、モバイルエッジコンピューティング（MEC）が何なのかまだご存じないですか？

クラウドコンピューティングのディープラーニングプラットフォームを構築し実践する唯一の方法

5G時代になりましたが、モバイルエッジコンピューティング（MEC）が何なのかまだご存じないですか？

ウェブサイトの SEO 最適化の結果を測定するための評価基準は何ですか?

BandwagonHost: THE CHICKEN、サンノゼユニコム AS4837、年間 37 ドル、1G メモリ/1 コア/20g SSD/1T トラフィック/2.5Gbps 帯域幅

パブリッククラウド？プライベートクラウド？ハイブリッドクラウド？所により曇り？業界クラウド？違いが分からない 2

MitiHost - 35% オフ/アトランタ KVM/G ポート

オアシスは浮き沈みを経験し、KOCの価値は急上昇した

10年ぶりのアリババクラウドの新たなスタートを理解する

トラフィックキャッチャー: SEO キーワード最適化

最大のオンラインねずみ講事件「万家ショッピング」がついに審理される

SaaS の将来は人工知能とどのような関係があるのでしょうか?

推薦する

百度ウェブサイトの外部リンクを判断することに関する李氏の意見

最適化には「幅広く網を張る」ための「高貴で高貴な」ロングテールキーワードは必要ない

Contabo: 19 年間の運営実績を誇るドイツの有名な VPS ブランド。米国、ドイツ、英国、シンガポールに 6 つのデータセンターを構え、月額 6.99 ドルから利用可能。8G メモリ/4 コア (AMD EPYC)/50gNVMe/32T トラフィック。

多くの場所で百度のエージェントが従業員に360ソフトウェアをアンインストールするよう求めた

SEO業界もモバイルインターネット時代へ移行する

プロモーションチャネルの大規模なコレクション。必要なものを見つけてください。

5Gとエッジコンピューティング：強力な組み合わせ

低価格≠高コストパフォーマンス。分散ルーターを購入する際に知っておくべきこと

重慶ショッピングマッドネスウェディングコラムの分析例から、フォーラムSEOの作成方法を学ぶ

肉家餅を売って1日800ドル稼ぐ洛陽のおじさんに学ぶマーケティングのやり方

ライトイヤーフォーラムは20日で終了となります。SEOフォーラム運営の難しさについて語り合いましょう。

ウェブサイトはどのようにして「ほぼ死にかけ」から「復活」したのでしょうか?

パンデミックがクラウドコンピューティングの災害復旧について教えてくれること

災害復旧について話すとき、私たちは何について話すのでしょうか?

神通電子商取引プラットフォームは立ち上げから2か月後に閉鎖または放棄された