分散型で高可用性のメタデータ収集の原則

分散型で高可用性のメタデータ収集の原則

導入:

メタデータの収集は、メタデータ製品の中核部分です。収集効率をどのように向上させるかについては慎重な検討が必要です。主流技術の開発動向に追随しながら安定性を維持する必要があります。メタデータ製品は、初期の集中型 WEB アプリケーション システムから、現在普及している分散型およびマイクロサービス システム アーキテクチャへと進化してきました。元のメタデータ収集効率では、アプリケーションのニーズを満たすことができなくなりました。

[[279335]]

目次:

1. メタデータ収集の原則

2. 分散収集戦略

3. 分散収集戦略の適用

1. メタデータ収集の原則

メタデータを収集したい場合は、まずメタデータとは何か、メタデータはどこに保存されるのか、そしてなぜメタデータが収集されるのかを理解する必要があります。

メタデータは一般的に、データを説明するために使用されるデータとして説明されます。実際、ビジネス ロジックによって直接読み取られ、書き込まれ、処理されるビジネス データに加えて、システム全体の動作を維持するために必要なその他のすべての情報/データをメタデータと呼ぶことができます。たとえば、データベースのスキーマ、テーブル、列の情報、タスクの血縁関係、ユーザーとスクリプト/タスク間の権限マッピング関係情報などです。

ビッグデータ プラットフォームを例にとると、メタデータはビッグデータ プラットフォーム内のデータ フローの全プロセスを通じて実行され、主にデータ ソース メタデータ、データ処理プロセス メタデータ、データ サブジェクト ライブラリ メタデータ、サービス層メタデータ、アプリケーション層メタデータなどが含まれます。

データガバナンスの鍵は情報を収集することです。当然のことながら、データがなければ分析する方法はなく、プラットフォームのデータリンクを効果的に管理および改善することは不可能です。したがって、メタデータ管理プラットフォームの非常に重要な機能は情報収集です。どのような情報を収集するかは、ビジネスニーズと解決すべき対象の問題によって異なります。

メタデータを収集するには?

メタデータ収集とは、データのライフ サイクル中にメタデータを取得し、メタデータを整理し、メタデータをデータベースに書き込むプロセスを指します。


異なるソースからメタデータを取得する方法も異なります。収集方法には、直接データベース接続、インターフェース、ログ ファイルなどの技術的手段を使用して、構造化データのデータ ディクショナリ、非構造化データのメタデータ情報、ビジネス指標、コード、データ処理プロセスなどのメタデータ情報を自動または手動で収集することが含まれます。収集されたメタデータは、CWM モデルに準拠した構造に整理され、リレーショナル データベースに保存されます。


2. 分散コレクションアーキテクチャ

最近では、メタデータ管理ツールによって収集されたメタデータの適時性に対する懸念が高まっています。当社のメタデータ管理ツールは、さまざまなソースからのメタデータを管理し、定期的にデータを収集するためのさまざまな収集タスクを構成します。収集タスクを効率的に完了する方法は、メタデータ管理ツールに保存されるメタデータの適時性に影響します。当初の収集タスク戦略は、単一の収集プログラムを使用して収集タスクを連続的に実行するというものでした。この戦略では収集効率が非常に低かったです。収集効率を向上させるために、複数の収集プログラムを使用して収集タスクを同時に実行しました。

一般的なメタデータ管理ツールのアーキテクチャは、すべての機能モジュールが 1 つのアプリケーションに集中している従来の集中型 WEB アプリケーション アーキテクチャです。


3. 分散コレクションアーキテクチャの応用

ある証券会社でデータガバナンスを実施していたとき、クライアントのネットワークアーキテクチャが比較的複雑であることがわかりました。ネットワークアーキテクチャは、業務システム層、データ収集層、データストレージ層の3層に大別されます。

業務システムは、北京の業務システム A、上海の業務システム B、広州の業務システム C など、業務システム層のさまざまな地域に分散されています。各業務システムのデータベースにアクセスするには、データ収集層のプロキシ IP を介してのみアクセスできます。異なる地域のビジネス システム プロキシの IP アドレス セグメントも異なります。データ収集層のネットワークセグメントを接続できません。データ ストレージ層は、データ収集層のすべてのネットワーク セグメントに直接接続できます。


現在のメタデータ アーキテクチャは、アプリケーションとコレクション サービスの 2 つの部分に分かれています。アプリケーションと収集プログラムの間には 1 対 1 の関係があります。このようなネットワーク状況に対応するために、メタデータ製品のアーキテクチャを調整する必要があります。


1. メタデータ アプリケーションとコレクション サービスを 1 対多モードに変更します。このように、収集サービス情報 (IP、ポート) を維持 (追加、削除、変更) し、収集対象データ ソースを収集プログラム サービスにマッピングし、対象データ ソースをプライマリおよびバックアップ収集サービスで構成できる収集サービス管理モジュールが必要です。プライマリ収集サービスに障害が発生した場合、バックアップ収集サービスを通じて収集作業を継続できます。

収集サービス管理モジュールは、収集サービスの動作状況の確認、デフォルトの収集サービスの設定など、操作性と適用性を考慮する必要があります。

2. メタデータ収集タスクは並列実行に調整されます。メタデータを収集する手順は、メタデータを取得 > 一時テーブルに入力 > 正式テーブルと比較、メタデータ ID を更新、メタデータ変更情報を取得 > メタデータと変更情報を正式テーブルに入力、となります。

コレクション タスクを並列実行に調整する際の主な難しさは、メタデータ ストレージ データベースに一時テーブルのコピーが 1 つしかないため、一時テーブルをキャンセルする方法です。現在の収集タスクが完了し、一時テーブルがクリアされた後にのみ、次の収集タスクを実行できます。

一時テーブルの機能は次のとおりです。

メタデータ ID を更新し、新しく追加、変更、削除されたメタデータを見つけます。メタデータを収集すると、メタデータ ID としてメタデータごとにランダムな UUID が生成されます。正式テーブルと比較する場合、特定のメタデータが以前にデータベースに保存されていた場合は、メタデータの一時テーブル内の ID を正式テーブルの ID に更新する必要があります。

一時テーブルをキャンセルするには:

1. メタデータ コード + メタデータ タイプ + メタデータ 親パスの MD5 暗号化によって生成された文字列をメタデータ ID として使用することを選択します。この方法では、メタデータ ID が固定され、公式テーブルと比較する必要がなくなります。

2. メタデータ ID を介して正式なテーブルをクエリすると、新しく追加されたメタデータと削除されたメタデータを確認できます。

メタデータのすべての属性値を MD5 で暗号化し、メタデータの属性 ID として文字列を生成します。このように、メタデータの属性 ID を比較することで、メタデータが変更されたかどうかを知ることができます。

この方法では、一時テーブルをキャンセルし、収集サービス プログラム内でメタデータを正式なテーブル データと比較し、変更されたメタデータを取得し、メタデータ レコードをデータベース内の正式なテーブルに直接書き込むことができます。メタデータ収集タスクも並行して実行できます。


データ収集層の各ネットワーク セグメントに収集サービスを展開し、高同時実行のメタデータ収集を実現します。この分散収集戦略の利点は次のとおりです。

1. メタデータ収集の効率化

2. 収集タスクは並列実行できる

3. 複雑なネットワーク環境に適応できるメタデータ収集。

<<:  コストと時間を節約し、効率化を図る: Amazon Aurora Serverless の包括的な分析

>>:  マイクロVMはフルVMとコンテナの間のギャップを埋める

推薦する

これを実行することによってのみ、ロングテールキーワードをランク​​付けできます。

ロングテール キーワードは、将来 SEO 最適化ランキングの中心的な領域になります。この問題について...

中国エレクトロニクスのCloudFlying Engine + Lanxinが政府サービスの加速に貢献

政府や企業のデジタル変革の文脈に適応し、俊敏に開発・展開でき、モバイル端末にシームレスに接続でき、安...

Doumi の「Good Job」マーケティングのレビュー: 視聴者獲得競争からマインド獲得まで、ブランドはどのようにして中心的地位を維持できるのか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています誰もが良い...

Baidu の外部リンクが SEO 担当者にとって依然信頼に値するかどうかの簡単な分析

外部リンクは王様です。この一文は SEO 担当者の心の中で常に大きな重みを持っており、高品質の外部リ...

7つのオプション! Redis 分散ロックの正しい使用法について議論する

[[385757]]序文日常の開発では、フラッシュセールの注文や紅包の受け取りなどのビジネスシナリオ...

Baidu の外部リンク ツールが利用可能になりました。SEO 革命が到来します。

Yahoo の外部リンク クエリ ツールが閉鎖されて以来、SEO 業界は外部リンクの数を測定するため...

コンテンツの質を高めるとSEOが簡単になります

我が国のインターネットの発展に伴い、インターネットは私たちの日常生活に欠かせないものとなり、オンライ...

ネットワーク最適化は価値の時代に戻る必要がある

どの業界も、成長から発展への転換期、つまり初期の混乱から後期の秩序への移行期を経ます。ネットワーク最...

VRRP、スタッキング、M-LAG について 3 分で学ぶ

データセンターのトラフィックが増加し、ネットワークの信頼性に対する要件が高まるにつれて、スイッチ仮想...

profitserver: スペイン語の VPS、50% 割引、無制限のトラフィック、カスタム ISO、月額 2.88 ドルから

profitserver は、スペインのマドリードにある 16 番目のデータ センター VPS (サ...

レオン:2020年にインターネットでお金を稼ぐ方法

インターネットは大きな変革を遂げています。 2020 年までに、世界中のインターネット ユーザー数は...

分散コンピューティングにおけるデータ品質に関する講演

[[442615]] 1. 概要1. データ品質の問題はどこにでもある基本的に、データを利用するすべ...

B駅のトラフィック傾向の分析

導入Bilibiliの人気トレンドは常に他のプラットフォームとは異なり、独自の2次元、妖怪、面白い属...

データ駆動型リソース管理とクラウドコンピューティングの未来

クラウド コンピューティングによってもたらされる最大の利点の 1 つは、需要に基づいて自動的にスケー...

Forrester 機械学習レポート: Tencent Cloud が第 1 位に

国際的に権威のある分析機関であるForresterが「Now Tech:中国における予測分析と機械学...