ウェブサイトデータ分析:分析の前提 - データ品質 1

ウェブサイトデータ分析:分析の前提 - データ品質 1

データ品質は、データ分析の結論の有効性と正確性の基礎であり、最も重要な前提と保証でもあります。データ品質保証は、データ ウェアハウス アーキテクチャの重要な部分であり、ETL の重要なコンポーネントです。

通常、データ クリーニングによってダーティ データをフィルタリングし、基礎となるデータの有効性と正確性を確保します。データ クリーニングは、通常、データがデータ ウェアハウスに入るための前提条件です。一般的に言えば、データがデータ ウェアハウスに入ると、そのデータが有効であることが保証される必要があります。上位レベルの統計集計では、このデータ バッチを基本データ セットとして使用し、上位層では検証やフィルタリングは実行されなくなります。同時に、安定した基礎となる基本データ セットを使用することで、すべての上位レベルの集計と多次元集計の結果が厳密に一貫していることも保証されます。ただし、データ ウェアハウスを構築する場合、通常はデータ クリーニングのすべての手順をウェアハウス化の前に行うわけではありません。通常、データ クリーニング作業の一部はウェアハウス化の後で行います。これは主に、データ ウェアハウスにはデータ処理における独自の利点があるためです。ウェアハウスでクリーニング作業の一部を実行する方が簡単で効率的です。さらに、データ クリーニングがデータの統計と集計の前に行われる限り、クリーニング後にデータ ウェアハウスに保持される最終的な「クリーンな」基本データを使用することを保証できます。

以前、同僚とデータ品質保証の問題について議論したことがあります。以前、データウェアハウス関連の仕事をしていたときにも関連する内容に触れたことがあったので、ここで体系的に整理しておこうと思います。以前は、データ ウェアハウスは Oracle に基づいて構築されていたため、Oracle が提供するデータ ウェアハウス構築ツールである OWB (Oracle Warehouse Builder) を選択しました。これは、主に次の 3 つの部分を含む、データ品質を確保するための比較的完全な操作プロセスを提供します。

データプロファイリング

データ監査

データ修正

データプロファイリング

データ プロファイリングは、実はまだあまり適切な翻訳が見つかっていません。Oracle では「データ プロファイル分析」を使用していますが、実際には「プロファイリング」という言葉は、プロファイル分析の芸術的概念を反映できません。アメリカのテレビ シリーズ「クリミナル マインド」を見たことがある学生は、FBI の行動分析ユニット (BAU) が各エピソードで犯罪者に対して犯罪プロファイリングを実施し、犯罪者の身元背景、行動パターン、心理状態などを分析することを知っているはずです。したがって、プロファイリングは分析プロセスです。 Wikipedia ではデータ プロファイリングについて次のように説明しています。

データ プロファイリングは、既存のデータ ソースで利用可能なデータを調べ、そのデータに関する統計情報と情報を収集するプロセスです。

ここで、データ プロファイリングには統計情報を収集するプロセスが必要であることがわかります (これは、ガルシアがクリミナル マインドで行っていることでもあります)。では、データの統計情報を取得するにはどうすればよいでしょうか。

データベースに精通している学生であれば、データベースが各テーブルを分析することを知っているはずです。一方では、これはオプティマイザーが適切な実行プランを選択できるようにするためです。他方では、一部のクエリでは、分析から得られた統計情報を使用して、COUNT(*) などの結果を直接返すことができます。これは実際には単純なデータ プロファイリングです。Oracle データ ウェアハウス構築ツール OWB によって提供されるデータ プロファイリングの統計情報はより包括的です。データ プロファイルが確立されているテーブル内の各フィールドの完全な統計情報が含まれます。

レコード数、最大値、最小値、最大長、最小長、一意の値の数、NULL 値の数、平均値、中央値。さらに、OWB は 1 から 6 までの範囲の 6 シグマ値も提供します。値が高いほど、データ品質は優れています。6 シグマ値が 7 の場合、データ品質はほぼ完璧であると見なすことができます。同時に、フィールドの一意の値については、統計情報によって各一意の値の分布頻度が示されます。これは、後で詳しく説明する異常なデータを発見するのに非常に役立ちます。

上記のデータ プロファイルの統計情報を見ると、統計における統計的記述について考えることができます。統計では、いくつかの統計を使用して、いくつかのデータ セットまたはサンプル セットの特性を説明します。OWB のような ETL ツールがない場合でも、この統計の知識を使用して、データの簡単なプロファイリングを実行することができます。ここで、非常に実用的なチャート ツールであるボックス プロット (ボックス プロットまたは箱ひげ図とも呼ばれます) について説明しなければなりません。データの分布特性を示すためにボックス プロットを使用してみることができます。

ボックス プロットにはさまざまな形式があります。上に示したのは一般的なボックス プロットです。一般的に、中央の長方形ボックスの上部と下部は、データ セットの上位四分位数 (75%、Q3) と下位四分位数 (25%、Q1) を表し、中央の水平線はデータ セットの中央値 (50%、中央、Q2) を表します。同時に、一部のボックス プロットでは、データ セットの平均を示すために「+」が使用されます。箱の上部と下部から 2 本の線が伸びており、これらの 2 本の線の端 (「ひげ」とも呼ばれます) は、通常、箱から 1.5 IQR (Q3-Q1、箱の長さ) 離れているため、上側のひげは Q3+1.5IQR、下側のひげは Q1-1.5IQR になります。データ セットの最小値が Q1-1.5IQR より大きい場合は、最小値を使用して Q1-1.5IQR を置き換え、下側の延長線の端として使用します。同様に、最大値が Q3+1.5IQR より小さい場合は、最大値を上側の延長線の端として使用します。最大値または最小値が Q1-1.5IQR から Q3+1.5IQR の範囲を超える場合は、これらの超過データを外れ値と呼び、図に出力します。つまり、図の上側のひげの外側の点です。また、データセットに基づいて標準偏差 σ を使用したり、上下 3σ の範囲を選択したり、信頼水準 95% の信頼区間を使用して上限と下限の終了値を決定することもあります。

実際、ボックス プロットはデータ セットの全体像を示すものではありませんが、データ セットのいくつかの主要な統計をグラフで表現することで、データの全体的な分布と離散性を確認できます。

データ プロファイリングを通じて上記のデータ統計を取得できるようになりましたが、この統計情報を使用してデータの品質を確認し、データ内の潜在的な異常や問題を発見し、データを効果的に修正またはクリーンアップして「クリーン」なデータを取得するにはどうすればよいでしょうか。これについては、次の記事で説明します。

» この記事はBY-NC-SA契約を採用しています。転載の際は出典を明記してください: ウェブサイトデータ分析 » 「分析の前提条件 - データ品質1」

オリジナルリンク: http://webdataanalysis.net/data-collection-and-preprocessing/data-quality-1/

原題: ウェブサイトデータ分析: 分析の前提 - データ品質 1

キーワード: ウェブサイト、前提、品質、データ、品質、分析、有効性、ウェブマスター、ウェブサイトのプロモーション、収益化

<<:  SEO業界の詳細な分業と責任。方向性は明確になっていますか?

>>:  オンラインマーケティングの観点から、Good Voice が人気なのはなぜでしょうか?

推薦する

Zouxiu.comが偽造品を販売している疑い:eBayとの協力は不透明

本紙は、オンライン高級品販売サイトZouxiu.comのTmall公式旗艦店が、偽造グッチ製品を販売...

ガートナー: クラウド戦略を策定するための 6 つのステップ

近年、企業の急速な発展において、データとクラウドは避けて通れない話題となっています。効率的、高速、明...

運用上の注意: ユーザーの成長分裂について話すとき、私たちは本当に何を考える必要があるのでしょうか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスまず、基本的な理論を明確...

Sina Cloud Store: テクノロジーがわからなくても独自のウェブサイトを持つことができます

多くの学生は、独自のブログを構築したいと考えていますが、技術的な知識が不足していることや、スペースや...

IT 法律ネットワーク: 新しいドメイン名ポリシーがドメイン名登録者に与える影響

今月28日、CNNICは新しいドメイン名政策である「中国インターネットネットワーク情報センタードメイ...

タレントのウェブサイトがブロックされた後、私たちは何をすべきでしょうか?

最近、A5で地元タレントサイトの運営に関する記事をたくさん見ましたが、これは地元タレントサイトが今い...

Pinduoduo が資金の燃焼をやめたら何が起こるでしょうか?

電子商取引業界では、ゲームに多額の資金を費やす人気企業である Pinduoduo が、「1000 億...

Lu Songsong: BingとGoogleの検索ランキング要因に関する研究

知っていましたか? (1)H1タグとH2タグは重要ではありません。0.01ポイントしか占めません。 ...

SEOは実はエッセイを書くことに似ている

SEO とは何ですか? 中国語では「検索エンジン最適化」と翻訳されます。SEO を学んでいる多くの友...

HostingInside - 1G メモリ XEN/40G ハードディスク/1T トラフィック/月額 9.95 ドル

HostingInside では、1G メモリ搭載の XEN PV VPS の特別プロモーションを実...

ultravps: オランダの VPS、月額 3.15 ドル、KVM/4G メモリ/50g NVMe/2T トラフィック/1Gbps 帯域幅

現在から 7 月 15 日まで、ultravps はオランダのアムステルダム データ センターで 2...

分散型ディープラーニングの新たな進歩:「分散」と「ディープラーニング」の真の統合

近年、急速に発展している人工知能の分野のひとつであるディープラーニングは、NLP、画像認識、音声認識...

IT ハイブリッド クラウド戦略: 何を、なぜ、どのように構築するのか?

「ハイブリッド」という言葉は、通常は自動車に関連していますが、ほとんどの人はその言葉を知っています。...

2013 年に外部リンクをより効率的に投稿するにはどうすればよいでしょうか?

ウェブサイト運営の全プロセスにおいて、外部リンクは依然として最も面倒な部分です。外部リンクをより効率...