ウェブサイトデータ分析:分析の前提 - データ品質 1

ウェブサイトデータ分析:分析の前提 - データ品質 1

データ品質は、データ分析の結論の有効性と正確性の基礎であり、最も重要な前提と保証でもあります。データ品質保証は、データ ウェアハウス アーキテクチャの重要な部分であり、ETL の重要なコンポーネントです。

通常、データ クリーニングによってダーティ データをフィルタリングし、基礎となるデータの有効性と正確性を確保します。データ クリーニングは、通常、データがデータ ウェアハウスに入るための前提条件です。一般的に言えば、データがデータ ウェアハウスに入ると、そのデータが有効であることが保証される必要があります。上位レベルの統計集計では、このデータ バッチを基本データ セットとして使用し、上位層では検証やフィルタリングは実行されなくなります。同時に、安定した基礎となる基本データ セットを使用することで、すべての上位レベルの集計と多次元集計の結果が厳密に一貫していることも保証されます。ただし、データ ウェアハウスを構築する場合、通常はデータ クリーニングのすべての手順をウェアハウス化の前に行うわけではありません。通常、データ クリーニング作業の一部はウェアハウス化の後で行います。これは主に、データ ウェアハウスにはデータ処理における独自の利点があるためです。ウェアハウスでクリーニング作業の一部を実行する方が簡単で効率的です。さらに、データ クリーニングがデータの統計と集計の前に行われる限り、クリーニング後にデータ ウェアハウスに保持される最終的な「クリーンな」基本データを使用することを保証できます。

以前、同僚とデータ品質保証の問題について議論したことがあります。以前、データウェアハウス関連の仕事をしていたときにも関連する内容に触れたことがあったので、ここで体系的に整理しておこうと思います。以前は、データ ウェアハウスは Oracle に基づいて構築されていたため、Oracle が提供するデータ ウェアハウス構築ツールである OWB (Oracle Warehouse Builder) を選択しました。これは、主に次の 3 つの部分を含む、データ品質を確保するための比較的完全な操作プロセスを提供します。

データプロファイリング

データ監査

データ修正

データプロファイリング

データ プロファイリングは、実はまだあまり適切な翻訳が見つかっていません。Oracle では「データ プロファイル分析」を使用していますが、実際には「プロファイリング」という言葉は、プロファイル分析の芸術的概念を反映できません。アメリカのテレビ シリーズ「クリミナル マインド」を見たことがある学生は、FBI の行動分析ユニット (BAU) が各エピソードで犯罪者に対して犯罪プロファイリングを実施し、犯罪者の身元背景、行動パターン、心理状態などを分析することを知っているはずです。したがって、プロファイリングは分析プロセスです。 Wikipedia ではデータ プロファイリングについて次のように説明しています。

データ プロファイリングは、既存のデータ ソースで利用可能なデータを調べ、そのデータに関する統計情報と情報を収集するプロセスです。

ここで、データ プロファイリングには統計情報を収集するプロセスが必要であることがわかります (これは、ガルシアがクリミナル マインドで行っていることでもあります)。では、データの統計情報を取得するにはどうすればよいでしょうか。

データベースに精通している学生であれば、データベースが各テーブルを分析することを知っているはずです。一方では、これはオプティマイザーが適切な実行プランを選択できるようにするためです。他方では、一部のクエリでは、分析から得られた統計情報を使用して、COUNT(*) などの結果を直接返すことができます。これは実際には単純なデータ プロファイリングです。Oracle データ ウェアハウス構築ツール OWB によって提供されるデータ プロファイリングの統計情報はより包括的です。データ プロファイルが確立されているテーブル内の各フィールドの完全な統計情報が含まれます。

レコード数、最大値、最小値、最大長、最小長、一意の値の数、NULL 値の数、平均値、中央値。さらに、OWB は 1 から 6 までの範囲の 6 シグマ値も提供します。値が高いほど、データ品質は優れています。6 シグマ値が 7 の場合、データ品質はほぼ完璧であると見なすことができます。同時に、フィールドの一意の値については、統計情報によって各一意の値の分布頻度が示されます。これは、後で詳しく説明する異常なデータを発見するのに非常に役立ちます。

上記のデータ プロファイルの統計情報を見ると、統計における統計的記述について考えることができます。統計では、いくつかの統計を使用して、いくつかのデータ セットまたはサンプル セットの特性を説明します。OWB のような ETL ツールがない場合でも、この統計の知識を使用して、データの簡単なプロファイリングを実行することができます。ここで、非常に実用的なチャート ツールであるボックス プロット (ボックス プロットまたは箱ひげ図とも呼ばれます) について説明しなければなりません。データの分布特性を示すためにボックス プロットを使用してみることができます。

ボックス プロットにはさまざまな形式があります。上に示したのは一般的なボックス プロットです。一般的に、中央の長方形ボックスの上部と下部は、データ セットの上位四分位数 (75%、Q3) と下位四分位数 (25%、Q1) を表し、中央の水平線はデータ セットの中央値 (50%、中央、Q2) を表します。同時に、一部のボックス プロットでは、データ セットの平均を示すために「+」が使用されます。箱の上部と下部から 2 本の線が伸びており、これらの 2 本の線の端 (「ひげ」とも呼ばれます) は、通常、箱から 1.5 IQR (Q3-Q1、箱の長さ) 離れているため、上側のひげは Q3+1.5IQR、下側のひげは Q1-1.5IQR になります。データ セットの最小値が Q1-1.5IQR より大きい場合は、最小値を使用して Q1-1.5IQR を置き換え、下側の延長線の端として使用します。同様に、最大値が Q3+1.5IQR より小さい場合は、最大値を上側の延長線の端として使用します。最大値または最小値が Q1-1.5IQR から Q3+1.5IQR の範囲を超える場合は、これらの超過データを外れ値と呼び、図に出力します。つまり、図の上側のひげの外側の点です。また、データセットに基づいて標準偏差 σ を使用したり、上下 3σ の範囲を選択したり、信頼水準 95% の信頼区間を使用して上限と下限の終了値を決定することもあります。

実際、ボックス プロットはデータ セットの全体像を示すものではありませんが、データ セットのいくつかの主要な統計をグラフで表現することで、データの全体的な分布と離散性を確認できます。

データ プロファイリングを通じて上記のデータ統計を取得できるようになりましたが、この統計情報を使用してデータの品質を確認し、データ内の潜在的な異常や問題を発見し、データを効果的に修正またはクリーンアップして「クリーン」なデータを取得するにはどうすればよいでしょうか。これについては、次の記事で説明します。

» この記事はBY-NC-SA契約を採用しています。転載の際は出典を明記してください: ウェブサイトデータ分析 » 「分析の前提条件 - データ品質1」

オリジナルリンク: http://webdataanalysis.net/data-collection-and-preprocessing/data-quality-1/

原題: ウェブサイトデータ分析: 分析の前提 - データ品質 1

キーワード: ウェブサイト、前提、品質、データ、品質、分析、有効性、ウェブマスター、ウェブサイトのプロモーション、収益化

<<:  SEO業界の詳細な分業と責任。方向性は明確になっていますか?

>>:  オンラインマーケティングの観点から、Good Voice が人気なのはなぜでしょうか?

推薦する

オフサイト最適化については、安定した外部リンクをどのように作成するかを尋ねてください。

iAskは設立から2ヶ月が経ち、毎日定期的に外部リンクが追加されています。Baiduには1,070の...

#大容量ハードディスク VPS、ストレージ VPS# simplenode - $16/KVM/1G メモリ/1T ハードディスク/3T トラフィック/ダラス

simplenode は、2003 年に設立されたこの VPS 販売業者をほとんど忘れている人もいる...

Lu Songsong: 2011 年のウェブマスターのオンライン プロモーション手法のレビュー

2011年、SEOは「外部リンクを貼ること」になり、オンラインプロモーションは「外部リンクを貼ること...

WeChat StoresがTaobaoに挑戦:電子商取引へのアクセスには基準はないが、2万元のデポジットが必要

概要:WeChatパブリックプラットフォームは昨日、「WeChatストア」を正式に開始しました。We...

ウェブサイトは安定的にホームページへのランキングを誘導する循環型エコシステムを構築します(パート3)

前回の記事「ウェブサイトに循環型エコシステムを構築し、ホームページへのランキングを安定的に誘導する(...

Zookeeperが分散ロックを実装する原理

[[384001]]この記事はWeChatの公開アカウント「Rookie Flying」から転載した...

Baidu の「刑務所」からサイトを解放する方法

SEO をしている友人は、自分のサイトが Baidu に拘留されるというプロセスに遭遇します。22 ...

呂松松:独創性は百度の支持を得られない

Baidu はコンテンツに、Alibaba は電子商取引に、Tencent はソーシャル ネットワー...

Amazon Web Services、量子コンピューティングハードウェアの開発を支援するオープンソースソフトウェアPalaceをリリース

最近、Amazon Web Services は、量子コンピューティング ハードウェアの開発を支援す...

ion: シンガポールCN2クラウドサーバー期間限定特別プロモーション、2倍の帯域幅(最大50Mbps)、単一トラフィック、Alipay

クリプトデータセンターのクラウドサーバーブランド「ion」は現在、シンガポールデータセンターのシンガ...

A5 トピック: インターネット会議開催: 馬化騰と周洪義の秘密の戦い

A5 Webmaster Networkは、毎年恒例のインターネットカンファレンスが9月11日に北京...

簡単に無視できるクラウドの落とし穴 10 選

クラウド革命は長い間続いてきたため、すべての IT リーダーは、クラウド コンピューティングによって...

Dogyun: 30% オフ、韓国の VPS は月額 17.5 元から、3 つのネットワークに直接接続、1G メモリ/1 コア/20g SSD/500g トラフィック

Dogyun の韓国 VPS (クラシック VPS シリーズ) が、最新のハードウェア構成と低価格で...