分散型で高可用性のメタデータ収集の原則

分散型で高可用性のメタデータ収集の原則

導入:

メタデータの収集は、メタデータ製品の中核部分です。収集効率をどのように向上させるかについては慎重な検討が必要です。主流技術の開発動向に追随しながら安定性を維持する必要があります。メタデータ製品は、初期の集中型 WEB アプリケーション システムから、現在普及している分散型およびマイクロサービス システム アーキテクチャへと進化してきました。元のメタデータ収集効率では、アプリケーションのニーズを満たすことができなくなりました。

[[279335]]

目次:

1. メタデータ収集の原則

2. 分散収集戦略

3. 分散収集戦略の適用

1. メタデータ収集の原則

メタデータを収集したい場合は、まずメタデータとは何か、メタデータはどこに保存されるのか、そしてなぜメタデータが収集されるのかを理解する必要があります。

メタデータは一般的に、データを説明するために使用されるデータとして説明されます。実際、ビジネス ロジックによって直接読み取られ、書き込まれ、処理されるビジネス データに加えて、システム全体の動作を維持するために必要なその他のすべての情報/データをメタデータと呼ぶことができます。たとえば、データベースのスキーマ、テーブル、列の情報、タスクの血縁関係、ユーザーとスクリプト/タスク間の権限マッピング関係情報などです。

ビッグデータ プラットフォームを例にとると、メタデータはビッグデータ プラットフォーム内のデータ フローの全プロセスを通じて実行され、主にデータ ソース メタデータ、データ処理プロセス メタデータ、データ サブジェクト ライブラリ メタデータ、サービス層メタデータ、アプリケーション層メタデータなどが含まれます。

データガバナンスの鍵は情報を収集することです。当然のことながら、データがなければ分析する方法はなく、プラットフォームのデータリンクを効果的に管理および改善することは不可能です。したがって、メタデータ管理プラットフォームの非常に重要な機能は情報収集です。どのような情報を収集するかは、ビジネスニーズと解決すべき対象の問題によって異なります。

メタデータを収集するには?

メタデータ収集とは、データのライフ サイクル中にメタデータを取得し、メタデータを整理し、メタデータをデータベースに書き込むプロセスを指します。


異なるソースからメタデータを取得する方法も異なります。収集方法には、直接データベース接続、インターフェース、ログ ファイルなどの技術的手段を使用して、構造化データのデータ ディクショナリ、非構造化データのメタデータ情報、ビジネス指標、コード、データ処理プロセスなどのメタデータ情報を自動または手動で収集することが含まれます。収集されたメタデータは、CWM モデルに準拠した構造に整理され、リレーショナル データベースに保存されます。


2. 分散コレクションアーキテクチャ

最近では、メタデータ管理ツールによって収集されたメタデータの適時性に対する懸念が高まっています。当社のメタデータ管理ツールは、さまざまなソースからのメタデータを管理し、定期的にデータを収集するためのさまざまな収集タスクを構成します。収集タスクを効率的に完了する方法は、メタデータ管理ツールに保存されるメタデータの適時性に影響します。当初の収集タスク戦略は、単一の収集プログラムを使用して収集タスクを連続的に実行するというものでした。この戦略では収集効率が非常に低かったです。収集効率を向上させるために、複数の収集プログラムを使用して収集タスクを同時に実行しました。

一般的なメタデータ管理ツールのアーキテクチャは、すべての機能モジュールが 1 つのアプリケーションに集中している従来の集中型 WEB アプリケーション アーキテクチャです。


3. 分散コレクションアーキテクチャの応用

ある証券会社でデータガバナンスを実施していたとき、クライアントのネットワークアーキテクチャが比較的複雑であることがわかりました。ネットワークアーキテクチャは、業務システム層、データ収集層、データストレージ層の3層に大別されます。

業務システムは、北京の業務システム A、上海の業務システム B、広州の業務システム C など、業務システム層のさまざまな地域に分散されています。各業務システムのデータベースにアクセスするには、データ収集層のプロキシ IP を介してのみアクセスできます。異なる地域のビジネス システム プロキシの IP アドレス セグメントも異なります。データ収集層のネットワークセグメントを接続できません。データ ストレージ層は、データ収集層のすべてのネットワーク セグメントに直接接続できます。


現在のメタデータ アーキテクチャは、アプリケーションとコレクション サービスの 2 つの部分に分かれています。アプリケーションと収集プログラムの間には 1 対 1 の関係があります。このようなネットワーク状況に対応するために、メタデータ製品のアーキテクチャを調整する必要があります。


1. メタデータ アプリケーションとコレクション サービスを 1 対多モードに変更します。このように、収集サービス情報 (IP、ポート) を維持 (追加、削除、変更) し、収集対象データ ソースを収集プログラム サービスにマッピングし、対象データ ソースをプライマリおよびバックアップ収集サービスで構成できる収集サービス管理モジュールが必要です。プライマリ収集サービスに障害が発生した場合、バックアップ収集サービスを通じて収集作業を継続できます。

収集サービス管理モジュールは、収集サービスの動作状況の確認、デフォルトの収集サービスの設定など、操作性と適用性を考慮する必要があります。

2. メタデータ収集タスクは並列実行に調整されます。メタデータを収集する手順は、メタデータを取得 > 一時テーブルに入力 > 正式テーブルと比較、メタデータ ID を更新、メタデータ変更情報を取得 > メタデータと変更情報を正式テーブルに入力、となります。

コレクション タスクを並列実行に調整する際の主な難しさは、メタデータ ストレージ データベースに一時テーブルのコピーが 1 つしかないため、一時テーブルをキャンセルする方法です。現在の収集タスクが完了し、一時テーブルがクリアされた後にのみ、次の収集タスクを実行できます。

一時テーブルの機能は次のとおりです。

メタデータ ID を更新し、新しく追加、変更、削除されたメタデータを見つけます。メタデータを収集すると、メタデータ ID としてメタデータごとにランダムな UUID が生成されます。正式テーブルと比較する場合、特定のメタデータが以前にデータベースに保存されていた場合は、メタデータの一時テーブル内の ID を正式テーブルの ID に更新する必要があります。

一時テーブルをキャンセルするには:

1. メタデータ コード + メタデータ タイプ + メタデータ 親パスの MD5 暗号化によって生成された文字列をメタデータ ID として使用することを選択します。この方法では、メタデータ ID が固定され、公式テーブルと比較する必要がなくなります。

2. メタデータ ID を介して正式なテーブルをクエリすると、新しく追加されたメタデータと削除されたメタデータを確認できます。

メタデータのすべての属性値を MD5 で暗号化し、メタデータの属性 ID として文字列を生成します。このように、メタデータの属性 ID を比較することで、メタデータが変更されたかどうかを知ることができます。

この方法では、一時テーブルをキャンセルし、収集サービス プログラム内でメタデータを正式なテーブル データと比較し、変更されたメタデータを取得し、メタデータ レコードをデータベース内の正式なテーブルに直接書き込むことができます。メタデータ収集タスクも並行して実行できます。


データ収集層の各ネットワーク セグメントに収集サービスを展開し、高同時実行のメタデータ収集を実現します。この分散収集戦略の利点は次のとおりです。

1. メタデータ収集の効率化

2. 収集タスクは並列実行できる

3. 複雑なネットワーク環境に適応できるメタデータ収集。

<<:  コストと時間を節約し、効率化を図る: Amazon Aurora Serverless の包括的な分析

>>:  マイクロVMはフルVMとコンテナの間のギャップを埋める

推薦する

インターネットの多様化の流れの中で、SEOはどのように変化していくべきでしょうか?

インターネット会議が盛んに行われている中、主要メディアでは「多様化」という言葉が頻繁に登場しています...

WeChatパブリックアカウントの運用と宣伝方法

個人アカウントでも企業アカウントでも、サブスクリプションアカウントでもサービスアカウントでも、WeC...

ウェブサイトをGoogleに素早く掲載する最良の方法

しばらく作業した後、Web サイトが構築されます。新しい Web サイトの所有者として最初に考えるこ...

ハイブリッドクラウドはデジタル変革への迅速な道を提供します

IT 業界の多くの人々は、クラウド コンピューティングが設備投資と運用コストを最小限に抑え、サイクル...

Trentahost 仮想ホスティング 年間 12 ドル (米国、英国、ルーマニア)

Trentahost は設立されてまだ 1 年も経っていないホスティング会社です。ドメイン名登録、仮...

天猫のダブル11の2時間での売上高は33.7億に達し、昨年の1日全体の売上高を上回った。

ダブル11の夜、アリペイの杭州オフィスビルは明るく照らされていた。新浪科技は11月11日早朝、アリバ...

ウェブサイトの権限が低下した後のウェブサイトの運用方法

はじめに:私は2年以上にわたってメイクアップ写真ネットワークの宣伝を行ってきました。この仕事の経験の...

これから何が起こるのでしょうか? Google Cloud Platform は謎に包まれたまま

Google Cloud Platform (GCP) は、幹部が重要な成果を誇示しながらも年間収益...

最近のウェブサイトの掲載数の減少に関する仮説

2012 年は新しい年を迎え、SEO 担当者も活況を呈していました。時代の流れに合わせるために、百度...

SEO最適化で最も見落とされやすいリンク

SEO の専門家の多くは、ウェブサイトのキーワードランキングに細心の注意を払っていますが、画像の最適...

企業ウェブサイトの構築と保守:プロフェッショナルなサービスチームが鍵

インターネットの発展に伴い、多くの企業が自社のコーポレートサイトを開設しており、ほとんどの企業が自社...

iONcloud ダラスデータセンタークラウドサーバーの簡単な評価、評価データの共有

KTのコンピューター室にあるioncloudブランドのクラウドサーバーは最近ダラスのデータセンターが...

アリババクラウド、大学に1億元の無料コンピューティングパワーを提供すると発表:キャンパスでのクラウドコンピューティングの普及を加速

最近、2020年中国コンピュータ教育会議において、アリババクラウドはキャンパスでのクラウドコンピュー...