Mob Lin Rongbo: データファクトリーアーキテクチャのアップグレードについて再考

Mob Lin Rongbo: データファクトリーアーキテクチャのアップグレードについて再考

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開催されました。このサミットでは、人工知能、ビッグデータ、モノのインターネット、ブロックチェーンなど12の核心的なホットトピックに焦点を当て、国内外から60人の第一線の専門家が集まります。これはハイエンドのテクノロジーの饗宴であり、トップクラスの IT 技術者が学び、ネットワークを拡大するための見逃せないプラットフォームです。

「ビッグデータ処理技術」セッションでは、Mob Developer Service Platformの副技術ディレクターであるLin Rongbo氏が「データファクトリーアーキテクチャのアップグレードに関する共有」と題する基調講演を行いました。会議後、51CTOの記者が林容波氏に独占インタビューを行い、データファクトリーのアーキテクチャについて詳細な議論を行いました。

[[231159]]

Lin Rongbo 氏はモバイル インターネット業界で 7 年の経験を持っています。多くの企業の公共基幹システムのアーキテクチャ設計・開発を担当。数千万の同時ユーザー、テラバイトレベルのデータ処理、システムガバナンスの処理に長けています。現在はMob Developer Service Platformの副技術ディレクターを務めており、SDK事業全体のアーキテクチャ設計と実装、人材管理と紹介を担当しています。

MobData の前身である Zhangtao Technology は、2012 年にはすでに SDK 製品の開発を開始していました。 6年間の開発と蓄積を経て、13のSDK製品が次々とリリースされ、サードパーティのログイン、共有、SMS認証、メッセージプッシュ、モバイルゲーム録画、ユーザーシステム、データAPIなど、SDKのニーズをあらゆる側面からカバーし、開発者が開発コストを削減し、統合効率を向上させ、完全なデータ統計バックグラウンドを作成するのを支援します。過去5年間に大きな事故は発生していません。

豊富で多様な SDK 製品により、MobData は国際的にトップクラスのデータ機能も実現しています。現在、同社のデータソースは中国国内の 84 億台のモバイル デバイスをカバーしており、同社の製品は 26 万人以上の開発者に利用されており、月間アクティブ ユーザー数は 9 億 5,000 万人を超え、SDK ダウンロード数は 330 万回を超えています。

Mob データファクトリーのアーキテクチャ

データ ファクトリーには、データ収集やデータ処理などの機能が含まれており、業界のビッグ データに対して一連の標準化された処理を実行し、強力なデータ管理および分析機能を提供することを目的としています。

Mob は、開発者向けサービス プラットフォームであると同時に、サードパーティのパノラマ データ サービス プラットフォームでもあります。 Lin Rongbo 氏は、Mob Data Factory のアーキテクチャはデータ収集とデータ分析およびマイニングの 2 つの部分に分かれていると紹介しました。

Mob 現在の技術アーキテクチャ 2.0

データ取得の主な役割は、さまざまな製品を通じてデータを取得することです。その後、データは Flume を介して HDFS に転送されます。データ分析とマイニングの部分では、下から順に、ストレージ メディア、コンピューティング フレームワーク、モデル アルゴリズム、アプリケーション層になります。

データファクトリーアーキテクチャの3つの大きな課題

データの収集と処理のプロセスには、データ ソース、データの関係、商用製品の出力効率という 3 つの大きな課題があります。

データ ソースには、地域およびアプリケーション市場のポリシーの問題、ハードウェアとシステムの互換性の問題、SDK ビジネス チームと商品化チーム間の競合などが含まれます。

データの関係性の難しさは、データの幅と量が膨大であるため、データ ソースから完成品までのデータ チェーンが複雑になることから生じます。新入社員の中には、学習コストが非常に高い人もいます。従業員がデータ間の関係性を明確に理解していないと、計算が重複したり、データが不適切に使用されたりする可能性があります。その結果、データ関係はますます混乱し、メンテナンスコストもますます高くなります。

商用製品の出力効率を向上させる上での困難には、製品の反復が速いことと新製品の出力効率が低いことの矛盾、ビッグデータ開発と製品サービス間の高度な結合の矛盾、およびサービスの安定性の分離が悪いことなどがあります。

3つの主要な解決策

林容波氏は、これら 3 つの主要な問題に対する解決策も提示しました。

まず、データソースの問題に関して、Mob はパブリック クラウド + プライベート クラウド ソリューションを採用しました。同社は独自のコンピュータルームを構築するだけでなく、AmazonとAlibaba Cloudから多数のサーバーを購入し、インテリジェントDNS +ローカルサービス介入を使用してサービストラフィック全体の分散を制御しました。 DDOS 攻撃に遭遇した場合、基本的には Alibaba Cloud プラットフォームを使用して反復処理を実行し、データの正常性を確保できます。データ項目に関するポリシーの問題に対応して、Mob は各サービスと各データ項目に対応するスイッチを持つようにサーバー スイッチを追加しました。トラフィックが多い場合は、サービススイッチをオンにしてトラフィックを制御することもできます。 Mob は、通信の標準化、AOP、ソース データの監視などの問題に対処するための一般的なコンポーネント チームも設立しました。

データ関係の問題について、林容波氏はビッグデータにとってデータは血液であると述べた。データには血縁関係があるという特徴があります。 Mob は、実際には標準化されたタスク スクリプトとヘッダー定義である「血統管理システム」を開発しました。すべてのタスクでは、仕様に従ってタスクが誰に属するかを定義する必要があります。タスク割り当てシステムに提出されると、システム自体がタスクが仕様に準拠しているかどうかをチェックします。次に、ヘッダーを解析し、関連するデータ関係を抽出してデータベースに格納し、最後にデータ ソース全体の関係をグラフの形式で表示します。

その後、Mob は QC システム (データ ストリームの健全性状態を監視し、フォールト トレランス処理を実行する) を開発しました。 QC は主に 2 つのタスクを実行します。1 つは一般的なテスト、もう 1 つはカスタマイズされたテストです。カスタム テストは特別なニーズを対象としており、開発者が自分でコードとスクリプトを記述し、仕様に従って提出する必要があります。

商用製品の出力効率の問題を解決するために、Mob はミドルウェア製品を開発しました。ミドルウェアはデータベース クライアントとも呼ばれ、ビジネス システム、ゲートウェイ、過負荷保護の 3 つの部分で構成されます。 Mob は、既存のフレームワークをベースに、リソースをより効率的に活用し、データ処理の効率を向上させる方法についても技術的な観点から検討していきます。

大量のデータと強力なデータ処理能力は、Mob の 2 つの最大の強みです。さらに、Mob の 24 時間年中無休のサービスも注目のポイントです。今後の開発の方向性について、林容波氏は、まずはMobデータ処理の継続能力を向上させ、サーバーリソースを節約することだと語った。 2つ目に、自社のデータ量を充実させるために外部データの導入を検討します。

上記内容は、WOT2018 グローバルソフトウェアおよび運用技術サミットでの Mob Lin Rongbo 氏へのインタビューに基づいて 51CTO 記者がまとめたものです。 WOT の詳細については、.com をご覧ください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  大規模分散サーバーアーキテクチャの原理の分析

>>:  Amapと中国気象局が共同でAI版洪水マップを開発し、道路の洪水をリアルタイムで予測

推薦する

戦いに備えるために、販売者は SEO のこれら 5 つのトレンドを把握する必要があります。

データによると、Google では毎日約35 億回の検索が行われています。Google の自然検索結...

デジタル変革におけるインテリジェントクラウドコスト最適化の役割

企業がクラウド サービスを導入すると、コストの高騰に直面することが多く、最終的にはデジタル変革の進行...

百度も「超常現象」を起こし、認証を求めた

みなさんこんにちは。Snow Leopardです。私は皆さんとSEOについてコミュニケーションをとっ...

国内主要7データベースを比較すると、セコイア分散データベースはアリババやファーウェイよりも早く商用化されました!

過去 30 年間、国内のデータベースは常に海外のデータベースに追随してきました。 Oracle、My...

123systems VPS がまた大ヒット、年間支払いが超格安!

123systemsの年間プロモーションが始まりました。年間VPSが非常に安いだけでなく、足りないと...

リサーチ・インスティテュート:クラウド市場の価値は2028年に8,520億ドルに達する

人工知能、モノのインターネット、機械学習、ビッグデータなどの先進技術の継続的な導入と、クラウドコンピ...

まだトラフィックを購入するためにお金を費やしていますか? 5 つの主要なトラフィック チャネルのうちどれを選択しますか?

マーケティングプロモーションを行う際には、入札、SEO、百度情報フロー、Toutiao などのチャネ...

Baidu の検索ページでウェブサイトのキーワードを上位にランク付けする方法の簡単な分析

あなたのウェブサイトが Baidu でもっと上位にランクインしたい場合、あるいはウェブサイトのキーワ...

IIS ログから検索エンジン スパイダーの活動の痕跡を見つけることについて議論する

サイト最適化のプロセスでは、サイトの問題をすべてウェブマスター ツールから直接取得できるわけではあり...

IBM ハイブリッド クラウド プラットフォーム: 不確実な環境における「確実性」の要素

2020 年はあらゆる企業にとって非常に困難な年です。年初から徐々に拡大している新型コロナウイルス感...

クラウドコンピューティング: IoT産業の触媒

クラウド コンピューティングは、さまざまな理由から、今日のビジネスにとって強力な推進力となっています...

エッジコンピューティングの 5 つのベストユースケース

翻訳者 |崔浩企画 |徐潔成1. はじめに時間はお金や安全に等しいと認識したとき;データコンプライア...

Weibo ブランドアカウント ソーシャルマーケティングハンドブック

2020年でもWeiboを使うべきでしょうか?ブランドブルーVが登場したとき、私たちは新しいチャネル...

mvps: €3/KVM/2g メモリ/25g SSD/3T トラフィック、オランダ/ドイツ/フランス/英国

mvps はキプロスの VPS 会社で、GDPR を厳格に遵守しています。主に KVM 仮想化に基づ...