ウェブサイトデータ分析:分析の前提 - データ品質 3

ウェブサイトデータ分析:分析の前提 - データ品質 3

前回の 2 つの記事「分析の前提条件 - データ品質 1」と「分析の前提条件 - データ品質 2」では、それぞれデータ プロファイリングを通じてデータの統計情報を取得する方法と、データ監査を使用してデータに品質上の問題があるかどうかを評価する方法について説明しました。データ品質の問題は、完全性、正確性、一貫性の 3 つの側面から監査できます。この記事では、最後の部分であるデータ修正について紹介します。

データ監査は、データ内の問題を見つけるのに役立ちます。これらの問題は、データの全体的な品質を向上させるためにいくつかの方法を使用して修正できる場合があります。データ修正はこのタスクを達成するためのもので、次の側面から修正できます。

欠損値の補完

レコードが欠落している問題に対する最も簡単な解決策は、データを入力することです。一般的に、欠落している統計指標データは元のデータから再取得できますが、欠落している元のデータは抽出されたデータ ソースまたはバックアップ データから補足できます。元のデータが完全に失われた場合、それを回復することは基本的に不可能です。

欠損値については、多くの資料で何らかの統計的手法を使用して補うことが紹介されていますが、これは実際には欠損値の予測または推定です。一般的には、平均値、最頻値、前後の値の平均などの手法が使用されるか、回帰分析を使用して指標の変化傾向を当てはめて予測を行います。これらの方法は、欠損値を他の手段で取得または再計算できない場合、および欠損値に規則的な変化パターンがある場合に適しています。特定の日の指標値が欠損している場合、このタイプの方法を使用して、過去数日間のデータに基づいてその日の値を推定できます。しかし、ウェブサイト分析では、基礎となるログに欠損値がある場合、アクセスの詳細はほとんど追跡できないため、特定の欠損値を予測することは困難です。そのため、アクセス レコードに欠損値があり、これらのフィールドの欠損が一部の統計指標の計算に明らかに影響する場合、最も簡単な方法はレコードを破棄することです。ただし、欠損レコードを直接フィルタリングするこの方法は、アクセス ログなど、非常に正確なデータを必要としないデータにのみ使用されます。ウェブサイトの操作、トランザクションなどの場合、完全に正確に計算する必要があるこれらのデータは直接破棄してはなりません。さらに、アクセス ログ内の欠損レコードまたは異常レコードのフィルタリングも、そのようなデータの統計に基づく必要があります。一般的な原則は、重要でないフィールドの欠損レコードまたは異常レコードが 1% または 5‰ 未満である場合、これらのレコードをフィルタリングすることを選択できます。割合が比較的高い場合は、ログ レコードに問題があるかどうかをさらに確認する必要があります。

重複レコードの削除

データセット内の一部のフィールドの値は、日次統計インジケータ値の日付フィールドや、ユーザー情報テーブルのユーザーIDなど、一意である必要があります。一意であることが保証される必要があるこれらのルールは、データベースに一意制約を設定できます。ただし、ETL処理を行う場合、一意制約違反によりデータロードプロセス全体が中断されないようにするために(ロードプロセスに長い時間や処理コストがかかる場合があり、ETLにはプロセス全体が中断されないようにフォールトトレランスが必要です)、重複レコードは最初に無視され、一意であることが保証される必要があるフィールドは、ETLプロセス全体が完了した後に重複が排除されます。

これらの重複レコードは、データプロファイリングのデータ統計情報の一意の値の数とレコードの合計数を比較して、それらが一貫しているかどうかを確認することで確認できます。これらを修正する最も簡単な方法は、重複レコードを 1 つだけ保持し、その他を削除することです。これは実際の状況に基づいて判断する必要があり、重複レコードの統計を合計することで重複を削除できる場合もあります。

変換の不一致レコード

データウェアハウスの「統合」機能により、データは、データウェアハウスにデータを提供する必要があります。たとえば、3つのシステムを統合する必要があります。データソースAからIDを統合し、100で分割して、同じログのセットに由来する場合でも、以前のリリースバージョンにはモバイルバージョンがあります。新しいバージョンと古いバージョンのログが組み合わされたため、データ変換も関係していましたが、レコードのこの矛盾は間違いなくETLの処理コストを増加させます。

上記の例の変換ルールは比較的単純です。データ ウェアハウスの ETL でデータ変換を処理するときに、非常に複雑なルールに遭遇することがあります。このとき、最も重要なことは、データ ソースの記録方法を十分に理解し、データ ウェアハウスに入るデータの一貫性を確保することです。ベストプラクティスは、データ ウェアハウス開発エンジニアとその他のフロントエンド システム開発者が、統一されたデータ記録およびエンコード方法について事前に合意しておくことです。これにより、その後の調整、通信、および変換処理のコストを削減できます。

異常データの処理

文字エンコードなどの問題によって文字化けしたり、文字が切り捨てられたり、異常な値になったりするなど、異常なデータはほとんどの場合修正が困難です。これらの異常なデータに規則的なパターンがない場合、復元することはほぼ不可能であり、直接フィルタリングすることしかできません。

一部のデータ異常は復元できます。たとえば、元の文字に他の不要な文字が混在している場合は、サブストリング法とトリム関数を使用して、文字列の前後のスペースを削除できます。文字が切り捨てられている場合、切り捨てられた文字を使用して元の完全な文字列を推測できる場合は、復元することもできます。たとえば、モバイルオペレーティングシステムのレコードには、一般的にSymbian、Android、iPhone、BlackBerryなどが含まれます。一部のレコードがAndである場合、Androidに復元できます。他のモバイルオペレーティングシステムは切り捨てられており、Andレコードが表示されることは不可能であるためです。数値記録に異常に大きい値や小さい値がある場合、それが数値単位の違いによるものかどうかを分析できます。たとえば、グラムとキログラムの間には 1,000 倍の差がある、米ドルと人民元の為替レートに差がある、時間記録にタイムゾーンの違いがある、パーセンテージが 1 未満の小数点以下になっている、または 100 倍になっているなどです。これらの数値の異常は変換によって処理できます。また、数値単位の違いもデータの不整合と見なすことができます。また、値の後に余分なゼロがいくつか追加されるなど、一部の値が誤って拡大または縮小され、データ異常が発生します。

最後に、データを修正できるという前提をまとめます。1) データ品質の問題は、データ監査プロセスを通じて特定できます。2) データの問題は追跡可能で、傾向から予測したり、特定のルールを通じて変換および復元したりできます。それ以外の場合は、異常なデータを直接削除して破棄することしかできませんが、データのフィルタリングを行う前に、異常な記録の割合を評価する必要があります。割合が高すぎる場合は、元のデータの記録方法に問題がないかを見直す必要があります。

» この記事はBY-NC-SA契約を採用しています。転載の際は出典を明記してください: ウェブサイトデータ分析 » 「分析の前提条件 - データ品質3」


原題: ウェブサイトデータ分析: 分析の前提 - データ品質 3

キーワード: ウェブサイト、前提、品質、前回、2 つの記事、紹介、経由、ウェブマスター、ウェブサイトのプロモーション、収益化

<<:  タオバオのソフト記事マーケティング:レイアウトの問題

>>:  SEO業界の長所と短所についてもう一度話しましょう

推薦する

Sogou Zhilifangの登場は検索エンジンの全体的なアップグレードを告げる

Googleがナレッジグラフを立ち上げて以来、国内の検索エンジンもそれに追随し、SogouはSogo...

マッシュルーム VPS: 韓国のデータセンター/BGP 回線/30% 割引/KVM/100M 帯域幅

Mushroom Host moguhost は、OpenStack クラウド アーキテクチャを採用...

タオバオストア運営における厳しい需要について(第2部)

前回の記事で取り上げた緊急を要するトピックは、Taobao での偽注文でした。その短い記事では、タオ...

李佳琦とヴィヤは失敗するでしょうか?

厳密に言えば、この記事は書評です。今年のダブル11の前夜、ジュリアン教授の主要論文「『ダブル11』B...

アリババクラウド、中国の農産物の「三段跳び」達成を支援するためET農業ブレインをリリース

[[232050]]天候に頼って生計を立ててきた伝統的な農業は、静かに変化しつつある。四川省の特別養...

K8s 入門: K8s とは何か

1. 概要K8s 入門コースへようこそ。 Kubernetes (K8s または Kube とも呼ば...

華瑞クラウド:香港双方向cn2 gia/内モンゴルBGP、クラウドサーバーのみ19元/月、299元/年、無制限トラフィック

Huarui Cloud が新年カーニバル プロモーションをお届けします。香港双方向 CN2 GIA...

raksmart: 月額 99 ドル、1Gbps の帯域幅、無制限のトラフィック、米国 (ロサンゼルス/サンノゼ) の専用サーバー

無制限のトラフィックに最適なサーバーはどれですか?米国の無制限トラフィックサーバーの中で、最も安いの...

李佳琦はなぜ人気があるのでしょうか?

2018年10月20日、李佳琦が一晩で販売した商品の量は、上海セントラルプラザの年間小売総売上高に相...

LVSが提供する3つのIP負荷分散技術

1. LVSと負荷分散の概要: LVS はLinux Virtual Serverの略で、 Linu...

フォーラムの人気の源を見つける4つの方法を共有する

フォーラムの発展は人気にかかっています。人気はフォーラムにとって活力のある水源のようなものだと言えま...

インターネット金融業務入門ガイド!

インターネット時代において、伝統的な金融機関とインターネット企業は、インターネット技術と情報通信技術...

初心者ブロガーが記事を書くときに遭遇する最も一般的な問題

筆者は、大手フォーラムや QQ グループで友人たちがブログ記事のコンテンツを更新する方法について議論...

CSS3 背景画像の詳細な理解

月収10万元の起業の夢を実現するミニプログラム起業支援プラン背景画像を設定するには、backgrou...

justhost: 香港の VPS、月額 24 元から、帯域幅 200M、トラフィック無制限 (好きなように実行)

justhost は、香港 VPS、イタリア VPS (シチリア島の首都)、米国 VPS (アトラン...