Qunar.com の Kubernetes/Ceph ベースの GPU クラウド プラットフォーム プラクティス

Qunar.com の Kubernetes/Ceph ベースの GPU クラウド プラットフォーム プラクティス

[51CTO.comからのオリジナル記事] 今年、ディープラーニング分野で最もホットなニュースは、AIphaGoがKe Jieを0:3で破ったこと、そしてAIphaGo Zeroが人間の介入なしに自己学習と少しのトレーニングを通じてAIphaGoに勝利したことです。このことから、ディープラーニングがいかに急速に発展しているかが分かります。ディープラーニングは機械学習の分野です。そのコンセプトは 1960 年代に提案されましたが、当時はあまり話題になりませんでした。では、なぜ今になって再び世間の注目を集めているのでしょうか?

先日、51CTO主催の「Tech Neo」をテーマにした第16回テクノロジーサロ​​ンが北京で開催されました。このイベントには、Qunar.com の DevOps エンジニアである Ye Lu 氏が招待されました。彼女は、ディープラーニングが台頭した理由、Qunar.com のディープラーニング アプリケーションの実践、リソース使用の問題に対処するための GPU クラウドの構築方法について、全員と共有しました。

ディープラーニングが台頭した理由

現在、ディープラーニングは大学の研究室やトップIT企業から一般社会へと広がり、多くの企業がディープラーニング技術を活用して実用的な問題を解決しています。ディープラーニングの主な特徴は、複数の隠し層があることです。隠しレイヤーが継続的に重ねられるため、効果は向上し続けます。

ディープラーニングが普及した主な理由は 3 つあります。

  • 昔に比べて、データの取得はより便利になり、データ量も飛躍的に増加しています。
  • GPU などのコンピューティング リソースは安価になってきましたが、以前は非常に高価で入手が困難でした。
  • 使いやすいオープンソースツールの普及。

GPU はディープラーニングのアクセラレータです。GPU が登場する前は、実験が完了するまでに数か月かかったり、特定の実験のパラメータが適切でないことが判明するのに 1 日かかったりすることもありました。現在、優れた GPU はディープラーニング ネットワークを迅速に反復処理し、これまで数か月かかっていた実験をわずか数日で実行したり、数日を数時間に、数時間を数分に置き換えたりすることができます。

Qunar.comのディープラーニング応用実践

Qunar.com には、チケット認証コードの認識、写真を見て詩を書く詩機、インテリジェントなカスタマー サービス、「Na Qu Hua」ユーザーの信用格付け、過去の訪問記録に基づくホテルの推奨、さまざまなホテルの部屋のタイプの価格係数の計算、ホテル推奨モデルなど、ディープラーニングのアプリケーションが多数あります。その中でも、インテリジェントなカスタマー サービス、「Na Qu Hua」ユーザーの信用格付け、ホテルの推奨は、Qunar.com のディープラーニングの典型的な実用例です。

ディープラーニングの応用実践プロセスには一定の共通点があり、データを入力してアルゴリズムを設定し、コンピューターが世界を完全にモデル化できるようにすることで、いわゆる「インテリジェンス」を実現します。機械が人間の脳のように善と悪を区別できるようにし、リスク管理エンジニアがリスク分析を実施できるようにします。ユーザーの好みに合わせて、より適切なホテルを推奨します。ディープラーニングにより、モデルの信頼性が向上し、データが変更されても引き続き利用できるようになります。

以前は、Qunar.com の GPU リソースは複数のチームで共有されており、同僚が「私が 3 日間かけて実行したタスクを誰が殺したんだ!」と怒る状況によく遭遇しました。

GPU リソースの使用に関しては、他にもいくつか問題があります。

  • 環境には孤立はありません。
  • 調達サイクルは長いです。
  • リソースの使用率が低い。
  • 各種ツールの環境導入コストが高い。

では、GPU リソースの使用に関する一連の問題にはどのように対処すればよいのでしょうか? Qunar.com のソリューションは、GPU クラウドを構築してリソース使用のしきい値を下げ、リソース使用率を向上させることです。

Tensorflow を選ぶ理由は何ですか? GPU Cloud の当初の目標は、GPU リソースをクラウド化することです。ビジネス ラインの同僚は、機械学習アプリケーションをすばやくカスタマイズし、数秒で作成および削除し、ワンクリックで GPU リソースを解放し、ポータルへの統合された GPU リソース アプリケーションと管理の入り口を確立できるため、ビジネス ラインの同僚のアクセス コストと学習コストが削減されます。環境の分離を実現すると同時に、分散環境におけるトレーニング データの永続性と信頼性を確保し、Tensorflow ツール チェーン全体をサポートすることもできます。

なぜ Tensorflow なのか? GPU クラウドの構築の初期段階で Tensorflow を選択した理由は、オープンソースであり、比較的多くのユーザーがおり、比較的活発なコミュニティがあることです。また、中期および後期の段階では、Tensorflow は数値計算用の他のソフトウェア ライブラリもサポートする予定です。

次の図は、Tensorflow と他のコミュニティ間の問題とプルリクエストの量の比較を示しています。

以下に示すように、これは Tensorflow の Mnist コードの一部です。

この Mnist コードは合計 149 行のみで、冗長なコードはなく、コメントもいくつか含まれています。この短いコードでは、2 つの隠し層が定義され、ソフトマックス回帰モデルが構築されます。エンジニアは基盤となる実装について心配する必要がなくなり、モデル自体に集中できるようになります。

次の図は Tensorboard の部分的なスクリーンショットです。

Tensorboard は、Tensorflow の完全なツール チェーンの 1 つです。 R&D 担当者は、モデルを視覚的に調整できるだけでなく、モデルのトレーニング効果を直感的かつ便利に確認することもできます。

Qunar.com の GPU クラウド プラットフォーム アーキテクチャの簡単な紹介

次の図は、機械学習アプリケーションの展開の概略図です。 Server1 と Server2 の 2 台のマシンを直感的に確認できます。

OPS 名前空間では、2 台のマシンにまたがる分散 Tensorflow クラスターが展開されます。 Fight 名前空間は航空券アプリケーションであり、単一マシンの展開が選択されています。

次の図は、GPU インスタンスを初期化するプロセスを示しています。

R&D 担当者は、適切なモデルを独自に選択してアプリケーションを定義し、K8S のリソース定義ファイルを生成できます。 Qunar.com はリソース タイプとしてデプロイメントを選択し、残りのスケジュール設定とアプリケーションの初期化作業はこのファイルに基づいて完了しました。

機械学習では、データがどこに存在するかが重要です。 Qunar.com が開発者に提供するのは、Ceph、ブロック ストレージ、オブジェクト ストレージを同時にサポートすることであり、これにより、データ使用の柔軟性が向上するだけでなく、オンラインでの容量拡張もサポートされます。

Qunar.com はユーザーに Jupyter を提供します。 Jupyter が選ばれたのは、アルゴリズム エンジニアにとって使いやすいためです。

次の図は、Jupyter ユーザー インターフェイスを示しています。

Jupyter Notebook は、Python ikernel でサポートされている、Web ベースのコード作成および実行プラットフォームを提供します。異なる Python バージョンを選択でき、同じアプリケーションの担当者が共同で編集できます。

現在、GPU Cloud の第 1 フェーズは完了しており、パブリック ベータ版となっています。使用前と使用後の比較結果は以下の通りです。

  • 環境は数秒で作成および削除でき、環境を分離することもできます。この機能は開発者にとって非常に便利です。
  • Ceph に接続すると、データの可用性と信頼性が大幅に向上し、マシンの交換によるトレーニングデータの移行や損失を心配する必要がなくなります。
  • 権限に関しては、Spectrum は Qunar.com のアプリケーション管理センター ポータルに接続されています。管理モードは従来のアプリケーションと変わりませんが、新しいユーザーのアクセスしきい値が低くなります。
  • リソースの使用率を向上します。ここで注意していただきたいのは、必要がない場合は GPU 環境を適時に停止して消費量を削減するか、リソースを別の環境に割り当てなければならないということです。このアクションは、インターフェイス上の単純なアプリケーション無効化ボタンを通じて実行できます。

今後の展望

当初の目標は、GPU Cloud の基本環境を強化し、開発者が環境インストールの手間を省くことです。 Spectrum の第 2 フェーズは現在開発中です。開発エンジニアは環境テンプレートをカスタマイズできるため、環境のカスタマイズの自由度が高まるだけでなく、Tensorflow サービングの起動により、機械学習の実際の実装のためのより完全なパイプラインが提供されます。その他の最適化には、上流および下流のデータ取得パイプラインの改善、前処理プロセスの最適化、Jupyter プラグイン システムの統合などがあります。

【ゲストプロフィール】

[[211477]]

Ye Lu 氏は Qunar.com の DevOps エンジニアであり、機械学習クラウド プラットフォームの責任者です。主な業務は、Qunarプライベートクラウドプラットフォーム上でのコンテナクラウドの構築、運用・保守、実装です。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  JD Cloudがワンストップハイブリッドクラウドソリューションを開始

>>:  クラウドコンピューティングを導入する際には、テクノロジーの罠に陥らないようにしましょう

推薦する

クラウド回帰がデジタル変革を推進する 5 つの方法

多くの企業にとって、デジタル変革の旅の次の目的地はクラウドへの回帰となる可能性があることが判明しまし...

SEOの観点からインターネットマーケティング手法を考える

インターネット業界で働く人々、特に SEO ウェブサイト最適化に携わる人々なら、SEO が検索エンジ...

インターネットの素人から見たインターネットマーケティングとプロモーション - ウェブマスター情報およびサービスセンター

実は私は、貴金属関係の会社でインターネットとは関係のない技術系の仕事をしている技術者です。興味があっ...

エッジコンピューティングの種類とその使い方

エッジ コンピューティングは、クラウド コンピューティングの次のステップであることがわかりました。デ...

ジェレミー・リンの台頭から外部リンク構築について

あっという間にまた木曜日になりました。通常は百度が小さな更新を行う日です。最近、老千はジェレミー・リ...

#著作権なしの VPS# VM を購入 - 3.5USD/1G RAM/20gSSD/Windows/無制限トラフィック/DMCA なし

ここでは、BuyVM のルクセンブルク KVM 仮想 VPS を特別価格で紹介します。理由はただ 1...

深海の戦い:クラウドコンピューティング企業が海底光ケーブル敷設に深く関与

このテーマについて書こうと思ったのは少し偶然でした。先週末、エコノミスト誌の記事を閲覧中に業界関連の...

#BlackFriday# tudcloud: 香港 VPS (CN2+BGP)、40% 割引、トップアップすると残高が 30% 増加、月額わずか 3 ドル

tudcloud(米国に登録されている会社)は、毎年恒例のブラックフライデースーパープロモーションを...

Inspektor Gadget: クラウド ネイティブ時代の eBPF ツールチェーン フレームワーク

1. Inspektor Gadget とは何ですか? Inspektor Gadget は、Kub...

acclouds: 日本のソフトバンク VPS、Netflix をブロック解除、月額 55 元、512M メモリ/1 コア/20g SSD/1T トラフィック

中国の新興企業であるaccloudsは、主にKVM仮想化ベースのVPSを運営しています。現在は、日本...

A5 最適化: Baidu 検索最適化ガイドラインに従った SEO の重要性

インターネット市場の需要が高まり続けるにつれて、検索エンジン最適化技術はインターネット企業の市場シェ...

あなたのウェブサイト名が他人のウェディングドレスにならないようにしましょう

ウェブサイト名はウェブサイトのシンボルです。ブランド名として、しっかりと保護する必要があります。その...

キーワードランキングに影響を与える致命的な要因: メタタグとキーワード密度

SEO 業界では、キーワード ランキングは昔から不朽の神話です。企業が自社の Web サイトを Go...

Websound - $3.49/KVM/512M メモリ/10gSSD/2T トラフィック/ロサンゼルス

websound.co.uk は、psychz.net のロサンゼルス データ センターでホストされ...

ウェブサイトに広告や商業コンテンツが多すぎると、キーワードランキングに不利な影響を与える

ウェブサイトのランキングを促進する要因は最も研究されているかもしれませんが、ウェブサイトのランキング...