Qunar.com の Kubernetes/Ceph ベースの GPU クラウド プラットフォーム プラクティス

Qunar.com の Kubernetes/Ceph ベースの GPU クラウド プラットフォーム プラクティス

[51CTO.comからのオリジナル記事] 今年、ディープラーニング分野で最もホットなニュースは、AIphaGoがKe Jieを0:3で破ったこと、そしてAIphaGo Zeroが人間の介入なしに自己学習と少しのトレーニングを通じてAIphaGoに勝利したことです。このことから、ディープラーニングがいかに急速に発展しているかが分かります。ディープラーニングは機械学習の分野です。そのコンセプトは 1960 年代に提案されましたが、当時はあまり話題になりませんでした。では、なぜ今になって再び世間の注目を集めているのでしょうか?

先日、51CTO主催の「Tech Neo」をテーマにした第16回テクノロジーサロ​​ンが北京で開催されました。このイベントには、Qunar.com の DevOps エンジニアである Ye Lu 氏が招待されました。彼女は、ディープラーニングが台頭した理由、Qunar.com のディープラーニング アプリケーションの実践、リソース使用の問題に対処するための GPU クラウドの構築方法について、全員と共有しました。

ディープラーニングが台頭した理由

現在、ディープラーニングは大学の研究室やトップIT企業から一般社会へと広がり、多くの企業がディープラーニング技術を活用して実用的な問題を解決しています。ディープラーニングの主な特徴は、複数の隠し層があることです。隠しレイヤーが継続的に重ねられるため、効果は向上し続けます。

ディープラーニングが普及した主な理由は 3 つあります。

  • 昔に比べて、データの取得はより便利になり、データ量も飛躍的に増加しています。
  • GPU などのコンピューティング リソースは安価になってきましたが、以前は非常に高価で入手が困難でした。
  • 使いやすいオープンソースツールの普及。

GPU はディープラーニングのアクセラレータです。GPU が登場する前は、実験が完了するまでに数か月かかったり、特定の実験のパラメータが適切でないことが判明するのに 1 日かかったりすることもありました。現在、優れた GPU はディープラーニング ネットワークを迅速に反復処理し、これまで数か月かかっていた実験をわずか数日で実行したり、数日を数時間に、数時間を数分に置き換えたりすることができます。

Qunar.comのディープラーニング応用実践

Qunar.com には、チケット認証コードの認識、写真を見て詩を書く詩機、インテリジェントなカスタマー サービス、「Na Qu Hua」ユーザーの信用格付け、過去の訪問記録に基づくホテルの推奨、さまざまなホテルの部屋のタイプの価格係数の計算、ホテル推奨モデルなど、ディープラーニングのアプリケーションが多数あります。その中でも、インテリジェントなカスタマー サービス、「Na Qu Hua」ユーザーの信用格付け、ホテルの推奨は、Qunar.com のディープラーニングの典型的な実用例です。

ディープラーニングの応用実践プロセスには一定の共通点があり、データを入力してアルゴリズムを設定し、コンピューターが世界を完全にモデル化できるようにすることで、いわゆる「インテリジェンス」を実現します。機械が人間の脳のように善と悪を区別できるようにし、リスク管理エンジニアがリスク分析を実施できるようにします。ユーザーの好みに合わせて、より適切なホテルを推奨します。ディープラーニングにより、モデルの信頼性が向上し、データが変更されても引き続き利用できるようになります。

以前は、Qunar.com の GPU リソースは複数のチームで共有されており、同僚が「私が 3 日間かけて実行したタスクを誰が殺したんだ!」と怒る状況によく遭遇しました。

GPU リソースの使用に関しては、他にもいくつか問題があります。

  • 環境には孤立はありません。
  • 調達サイクルは長いです。
  • リソースの使用率が低い。
  • 各種ツールの環境導入コストが高い。

では、GPU リソースの使用に関する一連の問題にはどのように対処すればよいのでしょうか? Qunar.com のソリューションは、GPU クラウドを構築してリソース使用のしきい値を下げ、リソース使用率を向上させることです。

Tensorflow を選ぶ理由は何ですか? GPU Cloud の当初の目標は、GPU リソースをクラウド化することです。ビジネス ラインの同僚は、機械学習アプリケーションをすばやくカスタマイズし、数秒で作成および削除し、ワンクリックで GPU リソースを解放し、ポータルへの統合された GPU リソース アプリケーションと管理の入り口を確立できるため、ビジネス ラインの同僚のアクセス コストと学習コストが削減されます。環境の分離を実現すると同時に、分散環境におけるトレーニング データの永続性と信頼性を確保し、Tensorflow ツール チェーン全体をサポートすることもできます。

なぜ Tensorflow なのか? GPU クラウドの構築の初期段階で Tensorflow を選択した理由は、オープンソースであり、比較的多くのユーザーがおり、比較的活発なコミュニティがあることです。また、中期および後期の段階では、Tensorflow は数値計算用の他のソフトウェア ライブラリもサポートする予定です。

次の図は、Tensorflow と他のコミュニティ間の問題とプルリクエストの量の比較を示しています。

以下に示すように、これは Tensorflow の Mnist コードの一部です。

この Mnist コードは合計 149 行のみで、冗長なコードはなく、コメントもいくつか含まれています。この短いコードでは、2 つの隠し層が定義され、ソフトマックス回帰モデルが構築されます。エンジニアは基盤となる実装について心配する必要がなくなり、モデル自体に集中できるようになります。

次の図は Tensorboard の部分的なスクリーンショットです。

Tensorboard は、Tensorflow の完全なツール チェーンの 1 つです。 R&D 担当者は、モデルを視覚的に調整できるだけでなく、モデルのトレーニング効果を直感的かつ便利に確認することもできます。

Qunar.com の GPU クラウド プラットフォーム アーキテクチャの簡単な紹介

次の図は、機械学習アプリケーションの展開の概略図です。 Server1 と Server2 の 2 台のマシンを直感的に確認できます。

OPS 名前空間では、2 台のマシンにまたがる分散 Tensorflow クラスターが展開されます。 Fight 名前空間は航空券アプリケーションであり、単一マシンの展開が選択されています。

次の図は、GPU インスタンスを初期化するプロセスを示しています。

R&D 担当者は、適切なモデルを独自に選択してアプリケーションを定義し、K8S のリソース定義ファイルを生成できます。 Qunar.com はリソース タイプとしてデプロイメントを選択し、残りのスケジュール設定とアプリケーションの初期化作業はこのファイルに基づいて完了しました。

機械学習では、データがどこに存在するかが重要です。 Qunar.com が開発者に提供するのは、Ceph、ブロック ストレージ、オブジェクト ストレージを同時にサポートすることであり、これにより、データ使用の柔軟性が向上するだけでなく、オンラインでの容量拡張もサポートされます。

Qunar.com はユーザーに Jupyter を提供します。 Jupyter が選ばれたのは、アルゴリズム エンジニアにとって使いやすいためです。

次の図は、Jupyter ユーザー インターフェイスを示しています。

Jupyter Notebook は、Python ikernel でサポートされている、Web ベースのコード作成および実行プラットフォームを提供します。異なる Python バージョンを選択でき、同じアプリケーションの担当者が共同で編集できます。

現在、GPU Cloud の第 1 フェーズは完了しており、パブリック ベータ版となっています。使用前と使用後の比較結果は以下の通りです。

  • 環境は数秒で作成および削除でき、環境を分離することもできます。この機能は開発者にとって非常に便利です。
  • Ceph に接続すると、データの可用性と信頼性が大幅に向上し、マシンの交換によるトレーニングデータの移行や損失を心配する必要がなくなります。
  • 権限に関しては、Spectrum は Qunar.com のアプリケーション管理センター ポータルに接続されています。管理モードは従来のアプリケーションと変わりませんが、新しいユーザーのアクセスしきい値が低くなります。
  • リソースの使用率を向上します。ここで注意していただきたいのは、必要がない場合は GPU 環境を適時に停止して消費量を削減するか、リソースを別の環境に割り当てなければならないということです。このアクションは、インターフェイス上の単純なアプリケーション無効化ボタンを通じて実行できます。

今後の展望

当初の目標は、GPU Cloud の基本環境を強化し、開発者が環境インストールの手間を省くことです。 Spectrum の第 2 フェーズは現在開発中です。開発エンジニアは環境テンプレートをカスタマイズできるため、環境のカスタマイズの自由度が高まるだけでなく、Tensorflow サービングの起動により、機械学習の実際の実装のためのより完全なパイプラインが提供されます。その他の最適化には、上流および下流のデータ取得パイプラインの改善、前処理プロセスの最適化、Jupyter プラグイン システムの統合などがあります。

【ゲストプロフィール】

[[211477]]

Ye Lu 氏は Qunar.com の DevOps エンジニアであり、機械学習クラウド プラットフォームの責任者です。主な業務は、Qunarプライベートクラウドプラットフォーム上でのコンテナクラウドの構築、運用・保守、実装です。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  JD Cloudがワンストップハイブリッドクラウドソリューションを開始

>>:  クラウドコンピューティングを導入する際には、テクノロジーの罠に陥らないようにしましょう

推薦する

ゲーム運営とは何かを徹底的に理解できる記事です。

ゲーム運営は、退屈ではありますが、非常に重要なポジションです。ゲームのドル箱とプレイヤーのベビーシッ...

クラウドに人工知能を導入する際の 10 の考慮事項

クラウド コンピューティングは、あらゆる規模の企業がインターネット経由で多様なオンデマンドの仮想 I...

百度は検索の未来を見据える

私たち中国人の目には、百度は超強力なツールです。百度のない生活が停電や水不足と同じくらい耐え難いもの...

女性を深く理解することによってのみ、インターネットの世界のために戦うことができるのでしょうか? !

11月13日、女性ユーザーグループはインターネット製品マネージャーの間で注目を集める存在となった。 ...

cloudshards-ロサンゼルス/ストレージVPS/Gポート

cludShards は、openvz をベースとしたストレージ VPS のプロモーションを再度開始...

KubernetesベースのJenkinsサービスもDockerに移行可能

[[383773]]この記事はWeChatの公開アカウント「Ask Qi」から転載したもので、著者は...

テンセントと新浪はソーシャル電子商取引分野への参入を望んでいる。今年はこの業界で激しい競争の時期になるかもしれない。

利用者数、訪問数、資金調達などでリードするソーシャル電子商取引が頻繁に話題となると、インターネット大...

YonSuite:中国のSaaS業界で「リーダー」の役割を果たすことができるか?

中国の情報技術および企業サービス産業のリーダーとして、UFIDA Network は常に業界で求めら...

ヒューマニスティックマーケティング:インターネットマーケティングで無視できないサポートポイント

今日最も人気のある業界といえば、それはオンライン マーケティングでしょう。毎日上げ潮のように押し寄せ...

ソフト商品プロモーションとは?ソフト商品プロモーションでは何に注意すべきでしょうか?

多くのウェブマスターがソフト記事のプロモーションを行っていますが、私たちXiaofeng Lotte...

Jumei は次の Vipshop または Dangdang でしょうか?

Jumeiは週末、米国での上場目論見書を提出し、財務データを公開した。美容業界の垂直型電子商取引企業...

小さなウェブサイトで大金を稼ぐ方法

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス今では誰もが副収入を得る...

WeChat でクリエイティブな広告プロモーションを行うためのヒント。うまく活用して売上を 3 倍にしましょう。ケース分析

「北斗七星が南東を指し、夏の始まりです。」すべてのものがピーク成長期に入り、人々の消費意欲は徐々に熱...

ウェブサイトの最適化手順とメタタグの詳細

ウェブサイトの最適化手順とメタタグの詳細1.タイトル 2.キーワード 3.説明 4.ウェブサイトコン...

通信事業者のクラウドコンピューティング戦略は、データセンターの3つの主要な問題を解決します

以下は、中国情報技術コンサルティング・デザイン研究所の Pu Feng 氏の記事「次世代データセンタ...