ビッグデータ、人工知能、クラウドコンピューティングの統合と応用

ビッグデータ、人工知能、クラウドコンピューティングの統合と応用

概要: データ処理の段階的な発展を分析することにより、ビッグデータと人工知能技術の発展動向を分析します。実際の生産ニーズと組み合わせることで、コンテナ クラウド アーキテクチャに基づく新世代のビッグデータおよび人工知能プラットフォームが、データ分析、処理、マイニングなどの面で持つ強力な利点が検証されました。

キーワード:ビッグデータ、人工知能、クラウドコンピューティング、Docker、基本機能、マルチテナント

要約:本稿では、データ処理の段階的な発展を分析することにより、ビッグデータと AI 技術の発展動向を分析します。顧客の要件に応じて、Docker Cloud をベースとした新世代のビッグデータおよび AI プラットフォームは、データ分析、処理、マイニングなどの強力な利点を実証します。

キーワード:ビッグデータ;人工知能クラウドコンピューティング;ドッカー;基本的な能力;マルチテナント

導入

人工知能、ビッグデータ、クラウドコンピューティングは密接に関連しています。人工知能は 1956 年から発展してきました。ビッグデータ技術が登場する前は、数十年にわたって発展し、いくつかの浮き沈みを経験していました。しかし、ビッグデータと分散技術の発展に遭遇すると、コンピューティング能力とトレーニングデータ量の問題を解決し、膨大な生産価値を生み出すようになりました。同時に、ビッグデータ技術は、従来の機械学習アルゴリズムを分散化することで人工知能の分野にまで拡張しました。さらに、データがプラットフォームに集約され続けるにつれて、さまざまな部門や支店にサービスを提供するエンタープライズ ビッグデータ インフラストラクチャ プラットフォームの需要がますます高まっています。コンテナ技術を通じて、コンテナクラウドプラットフォーム上にビッグデータと人工知能の基本的な公開機能を構築し、マルチテナント技術を組み合わせることで人工知能、ビッグデータ、クラウドコンピューティングを統合し、ビジネス部門を強化します。

データ処理の開発段階

情報技術の活発な発展、特に過去10年間のモバイルインターネット技術の普及に伴い、事業者、汎金融、政府、大手中央企業、大手国有企業、エネルギーなどの分野におけるデータ量は幾何級数的な成長傾向を示しています。データ量の増加とデータタイプの多様化は、データ処理パフォーマンスへの圧力をもたらすだけでなく、データ処理方法に対する新たな要件も生み出しています。多数の新システムの構築に伴って、多くのデータアイランドも生まれ、企業のデータ運用、保守、価値発見に大きな課題をもたらしています。ビッグデータ技術の継続的な発展に伴い、図 1 に示すように、企業のデータ処理技術の変革もいくつかの段階を経てきました。


▲図1 エンタープライズデータ処理変革の段階

ビッグデータ技術の開発の初期段階では、データサイロを打破するために、さまざまな種類のデータがビッグデータプラットフォームに集められ、マルチソースおよび異種データのデータ収集プラットフォームとして機能するデータレイクの概念が形成されました。これを基にデータ標準化を実施し、企業データ集約センターを構築しました。この段階では、非構造化データの処理は主に保存と取得であり、構造化データの処理にはさまざまな API と少量の SQL サポートが提供されています。このため、主に SQL で実装されている多数の業務をビッグデータ プラットフォームに移行することが困難になります。新たなビジネスの開発や活用へのハードルが高く、ビッグデータ技術の推進が阻害されている。

第 2 段階では、企業顧客のニーズは主に、構造化データをより適切に処理し、古い IT アーキテクチャを分散アーキテクチャに移行する方法に反映されます。主要なデータ プラットフォーム ベンダーは、Hadoop 上の SQL の分野で研究開発と競争を開始し、SQL 標準の互換性を継続的に向上させています。この過程で Spark が誕生し、扱いにくく TB レベルでの計算パフォーマンスが低かった MapReduce アーキテクチャを徐々に置き換えていきました。 Hadoop テクノロジーは、構造化データの処理や分析などのより深いアプリケーション領域へと移行し始めました。 Hadoop 上の SQL 技術の継続的な発展と、Hadoop 分散トランザクションの問題に対する TransRing Technology のソリューションにより、ますます多くの顧客が Hadoop 上に新世代のデータ ウェアハウスを構築し、Hadoop 技術をますます多くのビジネス プロダクション シナリオに適用しています。技術的な障壁が低くなったことで、より多くのお客様が強力な分散コンピューティング機能を使用して、大量のデータを簡単に分析および処理できるようになりました。この段階の後期には、企業顧客のリアルタイムなデータ分析や判断に対する需要が高まり続け、ストリーム処理技術が開花しました。

第 3 段階では、一部の企業がリレーショナル データベースを中核とするデータ処理システムから、ビッグデータ技術を中核とするデータ処理システムへの移行を完了しました。このフェーズの初期段階では、多くの企業顧客が SQL を使用した統計データの分析とマイニングに満足していなかったため、従来の機械学習アルゴリズムが配布され始めましたが、それらは依然として構造化データの学習とマイニングを主な目的としていました。ディープラーニング技術と分散技術の衝突により、TensorFlow などの新世代のコンピューティング フレームワークが進化しました。コンピューティング能力の向上と大量のトレーニングデータの組み合わせにより、機械学習人工知能技術は構造化データと非構造化データの分野で驚異的な力を発揮できるようになり、顔認識、車両認識、インテリジェント顧客サービス、無人運転などの分野に応用され始めています。同時に、従来の機械学習アルゴリズムに大きな影響を与え、特徴エンジニアリングやビジネスドメイン知識への依存をある程度軽減し、機械学習の参入障壁を下げ、人工知能技術を普及させました。一方、視覚的なドラッグ アンド ドロップ ページ、豊富な業界テンプレート、効率的なインタラクティブ エクスペリエンスにより、データ アナリストの使用ハードルが大幅に下がり、人工知能テクノロジが企業の生産アプリケーションにさらに浸透できるようになりました。

ビッグデータ、人工知能、クラウド技術の統合

企業内のデータ リソースの適用が IT 部門に限定されなくなったため、ますます多くの社内プロジェクト チームや支社がビッグ データ プラットフォームの利用に加わるようになっています。さらに、データ処理技術の継続的な発展に伴い、基本プラットフォームのリソース分離、管理割り当て、オーケストレーションおよびスケジューリングの問題をどのように解決するか。エンタープライズ ビジネス アプリケーションに必要な基本的なサービス機能をより適切に抽象化し、アプリケーションに必要な基本サービスの環境構築、開発、テスト展開サイクルを短縮し、IT サポートの効率を向上させる方法。ビッグデータや人工知能などをベースに開発された数多くのアプリケーションをいかに適切に管理するかが、企業にとって緊急に解決しなければならない課題となっています。

ビッグデータ技術開発の初期には、コンピューティング フレームワーク MapReduce では単純なジョブ スケジューリング アルゴリズムのみが提供されていました。リソース管理の需要により、Hadoop 2.0 の時代には、分散コンピューティング フレームワークのリソースを管理するための独立したコンポーネントとして Yarn が使用されるようになりました。しかし、一方で、Yarn はスケジューリング コンピューティング フレームワークのリソースしか管理できません。一方、リソース管理の粒度は比較的粗く、効果的なリソース分離を実現できないため、企業顧客のニーズを満たすことがますます困難になっています。

上記の問題を解決するには、リソースの分離、カプセル化、仮想化、管理およびスケジュールの技術としてクラウド コンピューティング技術を使用する必要があります。しかし、Docker コンテナ テクノロジが広く受け入れられる前は、クラウド コンピューティングの仮想化テクノロジは主に仮想マシンに基づいてリソースをカプセル化し、その上にオペレーティング システムをロードしていたため、リソースの使用率が低くなっていました。初期の頃、一部のメーカーは仮想マシン技術に基づくクラウド ソリューション上にビッグ データ プラットフォームを構築しようとしました。リソースの利用率と安定性の問題により、プライベート クラウドでの成功例はほとんどありませんでした。パブリッククラウドに関しては、パブリッククラウドの比較的強力な基本プラットフォームハードウェアと運用保守サポート機能を活用して、非中核業務に適用する試みがいくつかあります。

DockerやKubernetesなどのコンテナ技術の発展、マイクロサービス、ビッグデータ、人工知能などの技術概念の形成に伴い、コンテナクラウドをベースとした基盤となるリソース管理およびスケジューリングプラットフォームの構築が基本プラットフォームで始まりました。コンテナクラウドは、クラスター内のさまざまなハードウェアリソースをカプセル化し、管理し、スケジュールする分散オペレーティングシステムのようなもので、カプセル化されたリソースをコンテナとして使用してビッグデータの関連コンポーネントプロセスを運び、これらのコンテナをオーケストレーションして、分散ファイルシステムHDFS、NoSQLデータベースHbase、分散分析データベースInceptor、分散ストリーム処理プラットフォームSlipstream、分散機械学習コンポーネントSophonなどのビッグデータと人工知能の基本サービスを形成します。これらの基本サービスをオーケストレーションすることで、パブリック機能サービス層が構築され、データウェアハウス、データマート、グラフデータベース、全文検索データベース、ストリーム処理サービス、NoSQLデータベース、機械学習プラットフォームサービス、カスタマイズされた画像認識サービスなどのサービスを提供し、企業向けの新しいデータ処理コアシステムを作成します。この基幹システムをベースに、さまざまな企業のさまざまな部門にサービスを提供しています。リソース分離テクノロジー、各テナントのリソース割り当てと権限管理を通じて、ビジネス ロジックの開発とデータ分析およびマイニングに重点を置き、ビジネス アナリストのパーソナライズされた分析ニーズを満たします。

テクノロジー統合の応用

中国郵政のビッグデータ プラットフォームは、Transwarp Data Hub (TDH) と Transwarp Operating System (TOS) を基本アーキテクチャ システムとして構築され、Teradata と Oracle を完全に置き換える新世代の論理データ ウェアハウスとデータ マートが構築されています。

全体的なアーキテクチャと実装

中国郵政のビッグデータ プラットフォームは、ボリューム収集、郵便サービス、名前と住所などのシステムにサービスを提供すると同時に、コンテナ クラウド TOS を使用して革新的なマルチテナント データ分析およびマイニング環境を実装します。業務レベルから管理レベル、意思決定レベルまでのインテリジェント分析システムを構築し、リスクと利益をシミュレーションして定量化し、郵便業務の各種データの分類、管理、統計、分析の機能を実現し、各レベルの管理者に各種の正確な統計分析と予測データを提供し、管理者がタイムリーに全体的な業務状況を把握し、マクロ的な意思決定をサポートできるようにします。省支局の基幹業務担当者に詳細なデータを提供することで、それぞれの業務目標、現状と履歴を正確に把握し、業務活動を効果的にサポートし、郵政業務の分析管理と意思決定サポートのニーズを満たすことができます。

中国郵政のビッグデータ プラットフォームは、データ レイク クラスター ドメイン、エンタープライズ データ ウェアハウス クラスター ドメイン、省サービス クラスター ドメイン、機械学習ラボ クラスター ドメイン、開発/テスト/トレーニング クラスター ドメインの 5 つの基本サービス クラスター ドメインに基づいています。

  • (1)データレイククラスタドメイン: TDHプラットフォーム上に構築されたデータレイクは、主にマルチソースの異種データの収集を担います。データ レイクには、元のデータ プール、クレンジングおよび処理データ プール、統合処理データ プールなどが含まれます。
  • (2)エンタープライズデータウェアハウスクラスタードメイン: TDHに基づくデータウェアハウスクラスター、ビッグデータイノベーションに基づく論理データウェアハウス、Teradataに基づく元のデータウェアハウス、Oracle上に構築された新聞雑誌マートのデータマートと郵便量収集管理システムの移行と変換に使用されます。
  • (3)省サービスクラスタードメイン: TOSをベースにコンテナ化されたマルチテナントデータ分析プラットフォームクラウドを構築する。省および市の支部の開発者および業務担当者に省レベルのマルチテナント プラットフォーム環境を提供し、グループ分散データおよび独自のデータの保存とコンピューティング、独自のアプリケーションの開発と管理、独立したテナントの使用と操作を可能にします。
  • (4)機械学習実験室クラスタードメイン: TOS上に構築されたコンテナ化されたマルチテナントビッグデータ機械学習プラットフォームであり、グループのデータセンターアナリストがデータ探索、ビジネスモデリング、アルゴリズム研究、アプリケーション開発、成果促進を行うためのマルチテナント開発実験環境プラットフォームを提供します。
  • (5)開発・テスト・トレーニングクラスタードメイン:アプリケーション開発者、システムテスター、トレーナー、学生向けにマルチテナントのビッグデータおよび機械学習プラットフォームを提供し、開発者や社内ユニット向けに開発およびテストのトレーニングサービスを提供します。

これにより、データ管理、サービス管理、運用保守管理、セキュリティ管理の4つの側面の統一が実現しました。これは、リスク管理、意思決定サポート、サービス サポート、プロセス最適化、ブランド イノベーション、クロス マーケティングの 6 つの主要なアプリケーション領域に適用されます。テナント管理、データガバナンス、データ処理、データマイニング、データ探索、データプレゼンテーションという 6 つの主要なプラットフォーム機能を実現します。

データ レイクとデータ ウェアハウスは TDH に基づいて構築され、ビジネス システム データ、リアルタイム ストリーミング データ、パートナー データ、インターネット データなどのさまざまなデータ ソースが含まれ、ESB アクセス、ETL ツール、Kafka、Sqoop、テキスト アップロード、手動アクセスなどを通じてデータ レイクに統合され収束されます。処理後に取得されたデータ アセットはデータ アセット ディレクトリに公開され、データ アセット ディレクトリを通じて TDH と TOS ユーザー間のデータ インタラクション システムが構築されます。ユーザーは、データ資産カタログを通じてデータをすばやく取得し、データの統合、融合、セキュリティ、共有を実現できるので便利です。データ資産カタログには、メタデータ、マスター データ、データ セキュリティ、データ標準、データ品質、データ プロファイル、データ ライフ サイクルなどが含まれます。さらに、エンタープライズ ユーザーは、ビッグ データ ポータルを通じて、テナント ストレージ コンピューティング リソースとデータ リソースをオンデマンドで申請します。承認プロセスに合格すると、クラスター リソース管理者はオンデマンドでクラスターを迅速に展開し、データ開発者が使用できるように、データ レイクからデータ分析クラスターまたは地方クラスターに対応するテナント スペースにデータを自動的にロードします。データ開発者は、データアプリケーションの結果をデータレイクに固め、外部にデータサービスを提供します。

データウェアハウスとデータマートの完全な移行

中国郵政ビッグデータプラットフォームは、Hadoop (TDH) テクノロジを使用して Teradata と Oracle のハイブリッド アーキテクチャを完全に置き換え、新世代の論理データ ウェアハウスとデータ マートを構築する世界初のシステムです。

オリジナルのボリューム収集システムでは、Teradata のデータ ウェアハウスと Oracle のデータベースを使用します。データ使用量は現在30TB近くあります。既存ユーザーは約5万人。約 900 のレポートに対して柔軟なクエリを提供します。毎日のレポートクエリ頻度は最大 400,000 回に達することがあります。月初めのピーククエリでは、約 2,000 件の同時計算クエリをサポートする必要があります。

プロジェクトの初期段階での広範な調査と準備作業を通じて、実用的なプロジェクト実施計画が策定されました。数量収集管理システムの全体的なアーキテクチャ、ESB、BI ツール、ETL ツール、スケジュール ツール、ポータルなどは変更ありません。元の数量収集システムのデータウェアハウスとデータマートのみをビッグデータプラットフォームに完全に置き換えることで、全体的な移行リスクが軽減されます。

移行プロセス全体には、環境の展開、モデルの移行と変換、インターフェースの移行と変換、データの移行、ETL の移行と変換、レポートの移行と変換、データの検証、パフォーマンスの最適化、ビジネス アプリケーションの移行、リスク管理、システムのテストなどが含まれます。たとえば、モデルの移行と変換では、元のビジネス ロジックは変更されず、インターフェース レイヤー モデル、基本レイヤー モデル、およびサマリー レイヤー モデルのわずかな変換のみが必要になります。モデル変換に関しては、システムベースレイヤーのモデル構造が比較的複雑であり、相関性が比較的高いです。元のシステムでは Teradata データベースを使用します。 TDH は Teradata のデータ型および SQL 方言と完全に互換性があるため、移行コストが削減されます。移行が完了すると、図 2 に示すように、パフォーマンスが大幅に向上します。


▲図2 移行前後のデータマートビジネスシナリオの500同時テストのパフォーマンス比較

コンテナクラウドをベースとしたビッグデータと機械学習プラットフォームの総合的な応用

TOS に基づいて実装された新しいマルチテナント モデルは、ビッグ データと機械学習プラットフォーム コンポーネントを完全にコンテナ化し、TOS 上で機能サービスを提供します。グループは、企業の内部クラウドプラットフォームを統一的に展開し、ストレージ、コンピューティング、ネットワークなどのリソースを郵便局の各テナント(グループ、省支社、市局など)に動的に割り当て、完全なリソース分離を実現することで、各テナントのデータアナリストとビジネス担当者が比較的独立したリソース環境を獲得し、ビジネスイノベーションを可能にします。同時に、リソースを動的に割り当てることで、リソース共有の利点を実現できます。

グループ、省支社、市役所の各レベルの担当者は、マルチテナント プラットフォームを使用して、アプリケーションの公開、申請、使用、開発、および成果の促進を行うことができます。プロジェクト申請が承認されると、省プロジェクトチームのメンバーはテナントスペースのデータリソースにアクセスし、プラットフォームサービスリソース、ビッグデータ分析ツール、機械学習マイニングツールを使用してデータ分析とマイニング作業を実行し、具体的にはデータ処理、モデル開発、アルゴリズムの適用、アプリケーションのリリースなどを実行します。承認と受諾後、結果はデー​​タレイクに昇格され、グループ全体にデータアプリケーションサービスを提供するために展開されます。

TOS+TDH を通じて、厚いプラットフォームと薄いアプリケーションを備えたマイクロサービス アーキテクチャが構築され、テナント間の異種性、独立したテストとデプロイメント、リソースのオンデマンド スケーリング、高性能コンピューティング機能、テナント間のエラーと問題の分離、チームの完全な機能が実現されます。データ資産管理を実現します。グループは、多様で膨大な、分野や専門分野を越えたデータのニーズに応えるため、データを包括的に整理し、さまざまな分野や専門分野のデータを革新的に統合し、データ資産カタログを作成して資産の迅速な検索と取得を容易にし、資産を管理および統制し、資産としてのデータを理論段階から実装段階に移行させました。

結論

企業のデータ処理とサービスのニーズが継続的に発展するにつれて、ビッグデータの融合と分散技術によるコンピューティングパワーの解放から始まり、テクノロジーは拡張と発展を続け、ビッグデータ、人工知能、クラウドコンピューティングの境界はますます曖昧になっています。 3 つのテクノロジーの開発は、相互に影響し合い、統合し続けています。これは発展と需要によって生み出された自然な傾向です。 「ポストビッグデータ時代」では、より多くの基本的なビッグデータと人工知能のクラウドプラットフォームが形成・実装され、テクノロジーを活用したビジネスが真に実現され、企業が効率と発展を向上させるためのより強力な基盤が提供されます。同時に、将来的には、企業がクラウドプラットフォーム、リソース共有、統合管理の利点を最大限に活用し、基本機能プラットフォームに基づくアプリケーションシステムをプラットフォームのアプリケーション市場に投入することも考えられます。

<<:  誰もがクラウド コンピューティングとビッグ データについて語っていますが、クラウド コンピューティングとは一体何でしょうか?

>>:  その食事中に、クラウド コンピューティングについて多くのことを学びました。

推薦する

下手なSEO初心者の成長過程

生まれたばかりの子どもにとって、喃語からよちよち歩き、そして普通に歩いたり話したりできるようになるま...

持続的なブランド成長の秘訣と3大マーケティング戦略!

消費者の主力の変化と消費者需要の変化により、ブランドのマーケティング手法は微妙に変化しました。ユーザ...

ブランドライブストリーミングマーケティングのための5つのヒント!

消費者の注意は、どこに向けられるべきか。これが注意経済の基本原則であり、この原則はモバイル インター...

マイクロサービス CI/CD 実践 - GitOps の完全な設計と実装

[[422238]]単一のアプリケーションと環境複数のアプリケーションと環境CI 継続的インテグレー...

2020年、インターネットはどこへ向かうのでしょうか?

新年が正式に始まりました。今年、大小を問わずインターネットの巨人が避けて通れないキーワードは何でしょ...

Baiduのスナップショットは失われ、再び獲得され、急いで新しいウェブサイトを立ち上げた苦い経験

新しいウェブサイトの立ち上げを急がないでください。個人としても会社としても、私たちはできるだけ早くウ...

DIY SEOの4つのステップは一度きりの作業ではありません

簡単に言えば、SEO は 4 つのステップに分かれています。1 つ目は基本的な基準を確立すること、2...

ボス、新規顧客を引き付けるための最も効果的なチャネルについてお話ししましょう!

背景知識: CAC = 1 人のユーザーを獲得するためのコスト、LTV = 1 人のユーザーの生涯価...

ugvps ブラックフライデーセール $4.99 2G RAM 100M 帯域幅 無制限トラフィック

ugvps ブラックフライデーセール 月額 4.99 ドル、2G メモリ、100M サーバー帯域幅、...

Linode 無料 $20、日本国内 2 データセンター / シンガポールを含む 9 つのオプション データセンター

Linode、この素晴らしい海外の VPS 業者は、長い間 Linode 割引コードを持っていません...

hxkvm-日本のデータセンターVPS評価、KVM/3ネットワーク直接接続

2009年に設立された「Nine Zero Innovation Laboratory」の製品である...

Ganlai Technology が Microsoft Technology and Ecosystem Conference に登場: テクノロジを使用して小売業にスマートな頭脳を与える

現在、デジタル変革はますます多くの企業の議題に上がっており、デジタル化によってもたらされる小売業の変...

shockhosting: 日本の東京データセンターにある 1Gbps 帯域幅の VPS の簡単なレビュー

shockhosting は最近、solusvm 管理と 1Gbps 帯域幅へのアクセスを使用して、...

uanode: ウクライナ VPS、1Gbps 無制限トラフィック、月額 3 ドル未満、著作権侵害の申し立てなし

uanode は 2009 年に登録されたウクライナの会社で、ウクライナにコンピューター ルームを持...

中国のバレンタインデーにフィッシングサイトの数が135%増加

フィッシングサイトの活動の特徴は、常に「ニュースを聞いてすぐに行動する」ことです。電子商取引サイトの...