ウェブサイトデータ分析:分析の前提 - データ品質 3

ウェブサイトデータ分析:分析の前提 - データ品質 3

前回の 2 つの記事「分析の前提条件 - データ品質 1」と「分析の前提条件 - データ品質 2」では、それぞれデータ プロファイリングを通じてデータの統計情報を取得する方法と、データ監査を使用してデータに品質上の問題があるかどうかを評価する方法について説明しました。データ品質の問題は、完全性、正確性、一貫性の 3 つの側面から監査できます。この記事では、最後の部分であるデータ修正について紹介します。

データ監査は、データ内の問題を見つけるのに役立ちます。これらの問題は、データの全体的な品質を向上させるためにいくつかの方法を使用して修正できる場合があります。データ修正はこのタスクを達成するためのもので、次の側面から修正できます。

欠損値の補完

レコードが欠落している問題に対する最も簡単な解決策は、データを入力することです。一般的に、欠落している統計指標データは元のデータから再取得できますが、欠落している元のデータは抽出されたデータ ソースまたはバックアップ データから補足できます。元のデータが完全に失われた場合、それを回復することは基本的に不可能です。

欠損値については、多くの資料で何らかの統計的手法を使用して補うことが紹介されていますが、これは実際には欠損値の予測または推定です。一般的には、平均値、最頻値、前後の値の平均などの手法が使用されるか、回帰分析を使用して指標の変化傾向を当てはめて予測を行います。これらの方法は、欠損値を他の手段で取得または再計算できない場合、および欠損値に規則的な変化パターンがある場合に適しています。特定の日の指標値が欠損している場合、このタイプの方法を使用して、過去数日間のデータに基づいてその日の値を推定できます。しかし、ウェブサイト分析では、基礎となるログに欠損値がある場合、アクセスの詳細はほとんど追跡できないため、特定の欠損値を予測することは困難です。そのため、アクセス レコードに欠損値があり、これらのフィールドの欠損が一部の統計指標の計算に明らかに影響する場合、最も簡単な方法はレコードを破棄することです。ただし、欠損レコードを直接フィルタリングするこの方法は、アクセス ログなど、非常に正確なデータを必要としないデータにのみ使用されます。ウェブサイトの操作、トランザクションなどの場合、完全に正確に計算する必要があるこれらのデータは直接破棄してはなりません。さらに、アクセス ログ内の欠損レコードまたは異常レコードのフィルタリングも、そのようなデータの統計に基づく必要があります。一般的な原則は、重要でないフィールドの欠損レコードまたは異常レコードが 1% または 5‰ 未満である場合、これらのレコードをフィルタリングすることを選択できます。割合が比較的高い場合は、ログ レコードに問題があるかどうかをさらに確認する必要があります。

重複レコードの削除

データセット内の一部のフィールドの値は、日次統計インジケータ値の日付フィールドや、ユーザー情報テーブルのユーザーIDなど、一意である必要があります。一意であることが保証される必要があるこれらのルールは、データベースに一意制約を設定できます。ただし、ETL処理を行う場合、一意制約違反によりデータロードプロセス全体が中断されないようにするために(ロードプロセスに長い時間や処理コストがかかる場合があり、ETLにはプロセス全体が中断されないようにフォールトトレランスが必要です)、重複レコードは最初に無視され、一意であることが保証される必要があるフィールドは、ETLプロセス全体が完了した後に重複が排除されます。

これらの重複レコードは、データプロファイリングのデータ統計情報の一意の値の数とレコードの合計数を比較して、それらが一貫しているかどうかを確認することで確認できます。これらを修正する最も簡単な方法は、重複レコードを 1 つだけ保持し、その他を削除することです。これは実際の状況に基づいて判断する必要があり、重複レコードの統計を合計することで重複を削除できる場合もあります。

変換の不一致レコード

データウェアハウスの「統合」機能により、データは、データウェアハウスにデータを提供する必要があります。たとえば、3つのシステムを統合する必要があります。データソースAからIDを統合し、100で分割して、同じログのセットに由来する場合でも、以前のリリースバージョンにはモバイルバージョンがあります。新しいバージョンと古いバージョンのログが組み合わされたため、データ変換も関係していましたが、レコードのこの矛盾は間違いなくETLの処理コストを増加させます。

上記の例の変換ルールは比較的単純です。データ ウェアハウスの ETL でデータ変換を処理するときに、非常に複雑なルールに遭遇することがあります。このとき、最も重要なことは、データ ソースの記録方法を十分に理解し、データ ウェアハウスに入るデータの一貫性を確保することです。ベストプラクティスは、データ ウェアハウス開発エンジニアとその他のフロントエンド システム開発者が、統一されたデータ記録およびエンコード方法について事前に合意しておくことです。これにより、その後の調整、通信、および変換処理のコストを削減できます。

異常データの処理

文字エンコードなどの問題によって文字化けしたり、文字が切り捨てられたり、異常な値になったりするなど、異常なデータはほとんどの場合修正が困難です。これらの異常なデータに規則的なパターンがない場合、復元することはほぼ不可能であり、直接フィルタリングすることしかできません。

一部のデータ異常は復元できます。たとえば、元の文字に他の不要な文字が混在している場合は、サブストリング法とトリム関数を使用して、文字列の前後のスペースを削除できます。文字が切り捨てられている場合、切り捨てられた文字を使用して元の完全な文字列を推測できる場合は、復元することもできます。たとえば、モバイルオペレーティングシステムのレコードには、一般的にSymbian、Android、iPhone、BlackBerryなどが含まれます。一部のレコードがAndである場合、Androidに復元できます。他のモバイルオペレーティングシステムは切り捨てられており、Andレコードが表示されることは不可能であるためです。数値記録に異常に大きい値や小さい値がある場合、それが数値単位の違いによるものかどうかを分析できます。たとえば、グラムとキログラムの間には 1,000 倍の差がある、米ドルと人民元の為替レートに差がある、時間記録にタイムゾーンの違いがある、パーセンテージが 1 未満の小数点以下になっている、または 100 倍になっているなどです。これらの数値の異常は変換によって処理できます。また、数値単位の違いもデータの不整合と見なすことができます。また、値の後に余分なゼロがいくつか追加されるなど、一部の値が誤って拡大または縮小され、データ異常が発生します。

最後に、データを修正できるという前提をまとめます。1) データ品質の問題は、データ監査プロセスを通じて特定できます。2) データの問題は追跡可能で、傾向から予測したり、特定のルールを通じて変換および復元したりできます。それ以外の場合は、異常なデータを直接削除して破棄することしかできませんが、データのフィルタリングを行う前に、異常な記録の割合を評価する必要があります。割合が高すぎる場合は、元のデータの記録方法に問題がないかを見直す必要があります。

» この記事はBY-NC-SA契約を採用しています。転載の際は出典を明記してください: ウェブサイトデータ分析 » 「分析の前提条件 - データ品質3」


原題: ウェブサイトデータ分析: 分析の前提 - データ品質 3

キーワード: ウェブサイト、前提、品質、前回、2 つの記事、紹介、経由、ウェブマスター、ウェブサイトのプロモーション、収益化

<<:  タオバオのソフト記事マーケティング:レイアウトの問題

>>:  SEO業界の長所と短所についてもう一度話しましょう

推薦する

エッジコンピューティングの支出は2026年までに3,170億ドルに達する

IDC は、今年最も大きな投資が見られた 3 つのユースケースとして、コンテンツ配信ネットワーク、仮...

草の根マーケティング: 民間ウェブマスターが必ず学ぶべきプロモーションツール

インターネットは世界を変え、さらには私たちの考え方も変えます。インターネット マーケティングはマーケ...

検索エンジンは急速に変化しているので、プロモーションも時代に合わせてください。

インターネットには、ウェブサイト最適化業界に携わる人々のグループがあります。彼らは、大変な仕事に加え...

クラウドコンピューティング導入コストの棚卸し

クラウドコンピューティング技術の出現により、情報データ処理のコストが削減されます。しかし、現段階での...

インターネットSEOから:個人の生活のSEO最適化について語る

SEO に長年取り組んでいると、人生でちょっとしたことに遭遇したときに、それを自然に最適化と関連付け...

ipxcore-$2.39/KVM/192m メモリ/10g ハードディスク/300g トラフィック/サンディエゴ/ニュージャージー

小規模ながら優れた VPS 販売業者である ipxcore が、40% 割引コード 40june を...

新しいLinodeの簡単なレビュー

私は 2011 年に Linode を使い始めましたが、ウェブサイトに収入がないときに自分のお金を使...

ERPからクラウドコンピューティングへの移行には、ERPチャネルの適応が求められる

一部の企業では、ERP にクラウド コンピューティング導入モデルを採用し始めています。しかし、ここ数...

このトリックを学べば、自分のウェブサイトが含まれるかどうか心配する必要がなくなります。

月収10万元の起業の夢を実現するミニプログラム起業支援プラン以前、ウェブサイトが含まれない理由を分析...

垂直型電子商取引の解決策:セグメント化された市場

5月16日、聚美優品は米国で株式を公開した。当初予定されていた発行価格帯は19.5~21.5米ドルだ...

2018 年の初等・中等教育 APP ユーザーに関する洞察

昨年、盛り上がりを見せた小中高のオンライン教育は、現在「修復期」を迎えている。本来であれば業界の中心...

子どもの視点から世界を見てみましょう!子ども向け製品ウェブサイトのユーザビリティ調査

ここ数年で子供向けの商品が急速に登場し、ますます人気が高まっています。 iResearchは、201...

自動化されたクラウド最適化は DevOps スタッフの仕事を置き換えるでしょうか?

自動化テクノロジーを使用することで、より速く、より良いサービスを提供できます。では、企業がクラウド ...

クラウドコンピューティングがビジネスとITの関係をどのように再定義するか

企業が業務をクラウドに移行するという決定は、業務をデータセンター インフラストラクチャからクラウドに...

検索エンジンは人々を引き付ける役割を担い、ウェブサイトは人々を維持する役割を担っている。

検索エンジンはトラフィック転送ステーションです。検索エンジンは逆トラフィックソースに過ぎません。SE...