ウェブサイトデータ分析:分析の前提 - データ品質 3

ウェブサイトデータ分析:分析の前提 - データ品質 3

前回の 2 つの記事「分析の前提条件 - データ品質 1」と「分析の前提条件 - データ品質 2」では、それぞれデータ プロファイリングを通じてデータの統計情報を取得する方法と、データ監査を使用してデータに品質上の問題があるかどうかを評価する方法について説明しました。データ品質の問題は、完全性、正確性、一貫性の 3 つの側面から監査できます。この記事では、最後の部分であるデータ修正について紹介します。

データ監査は、データ内の問題を見つけるのに役立ちます。これらの問題は、データの全体的な品質を向上させるためにいくつかの方法を使用して修正できる場合があります。データ修正はこのタスクを達成するためのもので、次の側面から修正できます。

欠損値の補完

レコードが欠落している問題に対する最も簡単な解決策は、データを入力することです。一般的に、欠落している統計指標データは元のデータから再取得できますが、欠落している元のデータは抽出されたデータ ソースまたはバックアップ データから補足できます。元のデータが完全に失われた場合、それを回復することは基本的に不可能です。

欠損値については、多くの資料で何らかの統計的手法を使用して補うことが紹介されていますが、これは実際には欠損値の予測または推定です。一般的には、平均値、最頻値、前後の値の平均などの手法が使用されるか、回帰分析を使用して指標の変化傾向を当てはめて予測を行います。これらの方法は、欠損値を他の手段で取得または再計算できない場合、および欠損値に規則的な変化パターンがある場合に適しています。特定の日の指標値が欠損している場合、このタイプの方法を使用して、過去数日間のデータに基づいてその日の値を推定できます。しかし、ウェブサイト分析では、基礎となるログに欠損値がある場合、アクセスの詳細はほとんど追跡できないため、特定の欠損値を予測することは困難です。そのため、アクセス レコードに欠損値があり、これらのフィールドの欠損が一部の統計指標の計算に明らかに影響する場合、最も簡単な方法はレコードを破棄することです。ただし、欠損レコードを直接フィルタリングするこの方法は、アクセス ログなど、非常に正確なデータを必要としないデータにのみ使用されます。ウェブサイトの操作、トランザクションなどの場合、完全に正確に計算する必要があるこれらのデータは直接破棄してはなりません。さらに、アクセス ログ内の欠損レコードまたは異常レコードのフィルタリングも、そのようなデータの統計に基づく必要があります。一般的な原則は、重要でないフィールドの欠損レコードまたは異常レコードが 1% または 5‰ 未満である場合、これらのレコードをフィルタリングすることを選択できます。割合が比較的高い場合は、ログ レコードに問題があるかどうかをさらに確認する必要があります。

重複レコードの削除

データセット内の一部のフィールドの値は、日次統計インジケータ値の日付フィールドや、ユーザー情報テーブルのユーザーIDなど、一意である必要があります。一意であることが保証される必要があるこれらのルールは、データベースに一意制約を設定できます。ただし、ETL処理を行う場合、一意制約違反によりデータロードプロセス全体が中断されないようにするために(ロードプロセスに長い時間や処理コストがかかる場合があり、ETLにはプロセス全体が中断されないようにフォールトトレランスが必要です)、重複レコードは最初に無視され、一意であることが保証される必要があるフィールドは、ETLプロセス全体が完了した後に重複が排除されます。

これらの重複レコードは、データプロファイリングのデータ統計情報の一意の値の数とレコードの合計数を比較して、それらが一貫しているかどうかを確認することで確認できます。これらを修正する最も簡単な方法は、重複レコードを 1 つだけ保持し、その他を削除することです。これは実際の状況に基づいて判断する必要があり、重複レコードの統計を合計することで重複を削除できる場合もあります。

変換の不一致レコード

データウェアハウスの「統合」機能により、データは、データウェアハウスにデータを提供する必要があります。たとえば、3つのシステムを統合する必要があります。データソースAからIDを統合し、100で分割して、同じログのセットに由来する場合でも、以前のリリースバージョンにはモバイルバージョンがあります。新しいバージョンと古いバージョンのログが組み合わされたため、データ変換も関係していましたが、レコードのこの矛盾は間違いなくETLの処理コストを増加させます。

上記の例の変換ルールは比較的単純です。データ ウェアハウスの ETL でデータ変換を処理するときに、非常に複雑なルールに遭遇することがあります。このとき、最も重要なことは、データ ソースの記録方法を十分に理解し、データ ウェアハウスに入るデータの一貫性を確保することです。ベストプラクティスは、データ ウェアハウス開発エンジニアとその他のフロントエンド システム開発者が、統一されたデータ記録およびエンコード方法について事前に合意しておくことです。これにより、その後の調整、通信、および変換処理のコストを削減できます。

異常データの処理

文字エンコードなどの問題によって文字化けしたり、文字が切り捨てられたり、異常な値になったりするなど、異常なデータはほとんどの場合修正が困難です。これらの異常なデータに規則的なパターンがない場合、復元することはほぼ不可能であり、直接フィルタリングすることしかできません。

一部のデータ異常は復元できます。たとえば、元の文字に他の不要な文字が混在している場合は、サブストリング法とトリム関数を使用して、文字列の前後のスペースを削除できます。文字が切り捨てられている場合、切り捨てられた文字を使用して元の完全な文字列を推測できる場合は、復元することもできます。たとえば、モバイルオペレーティングシステムのレコードには、一般的にSymbian、Android、iPhone、BlackBerryなどが含まれます。一部のレコードがAndである場合、Androidに復元できます。他のモバイルオペレーティングシステムは切り捨てられており、Andレコードが表示されることは不可能であるためです。数値記録に異常に大きい値や小さい値がある場合、それが数値単位の違いによるものかどうかを分析できます。たとえば、グラムとキログラムの間には 1,000 倍の差がある、米ドルと人民元の為替レートに差がある、時間記録にタイムゾーンの違いがある、パーセンテージが 1 未満の小数点以下になっている、または 100 倍になっているなどです。これらの数値の異常は変換によって処理できます。また、数値単位の違いもデータの不整合と見なすことができます。また、値の後に余分なゼロがいくつか追加されるなど、一部の値が誤って拡大または縮小され、データ異常が発生します。

最後に、データを修正できるという前提をまとめます。1) データ品質の問題は、データ監査プロセスを通じて特定できます。2) データの問題は追跡可能で、傾向から予測したり、特定のルールを通じて変換および復元したりできます。それ以外の場合は、異常なデータを直接削除して破棄することしかできませんが、データのフィルタリングを行う前に、異常な記録の割合を評価する必要があります。割合が高すぎる場合は、元のデータの記録方法に問題がないかを見直す必要があります。

» この記事はBY-NC-SA契約を採用しています。転載の際は出典を明記してください: ウェブサイトデータ分析 » 「分析の前提条件 - データ品質3」


原題: ウェブサイトデータ分析: 分析の前提 - データ品質 3

キーワード: ウェブサイト、前提、品質、前回、2 つの記事、紹介、経由、ウェブマスター、ウェブサイトのプロモーション、収益化

<<:  タオバオのソフト記事マーケティング:レイアウトの問題

>>:  SEO業界の長所と短所についてもう一度話しましょう

推薦する

IPO前に知乎を解体

「招待ありがとうございます。私は今モンゴルにいて、空母から降りたところです。」 「サークルが小さすぎ...

生成型人工知能と実体経済の統合は、新たな生産性の開発を促進する

新年を迎え、世界と中国の科学技術分野ではニュースが絶え間なく報道されており、生成型人工知能の開発は依...

TmallのDouble Eleven公式サイトのロボットプロトコルを見る

毎年恒例の天猫ダブルイレブンがもうすぐやってきます。諺にあるように、素人にはその興奮はわかるかもしれ...

HeroicVPS - $20/年/128MB RAM/10GB HDD/500GB Flow/Onapp/Win/Phoenix

HeroicVPS はプロモーションを行っています。最後のプロモーションは 2013 年 12 月で...

SEO ゼロから学ぶ第 5 章 - ニュース ソースと Baidu のセンシティブ ワード

マーケティング手法には SEO が含まれており、SEO はマーケティングの一部です。SEO 分野で何...

Webmaster.com からの毎日のレポート: オンライン著作権侵害の補償が論争を巻き起こし、違法ウェブサイトが修正される

1. マイクロソフトは、IEブラウザのせいで合意を履行できなかったとしてEUから多額の罰金を科せられ...

クラウド データ: サーバーの用途は正確には何であり、高品質のサーバーを選択するにはどうすればよいでしょうか?

実は編集者もこのタイトルを無意味に考えました。サーバーは何に使うのでしょうか?サーバーは、ネットワー...

メタバース開発研究レポート

メタバースはソーシャルゲームの考え方に基づいていますが、ゲームの属性や特徴から切り離され、文化、人種...

テンセントクラウド浜海5Gエッジコンピューティングセンターが正式にオープン、テンセントの新インフラに新たなサポートを追加

10月14日、テンセントクラウド初の5Gエッジコンピューティングセンターが正式に一般公開されました。...

化粧品タオバオストアのプロモーション戦略分析

どれくらいの人が Taobao ストアを運営し始めたのかはわかりません。私の友人や同僚の多くが Ta...

分散トランザクションに関する面接で必ず聞くべき知識ポイント!

[[433051]]友人のほとんどは、面接官が面接中に投げかけた表面的な質問にしか答えないと思います...

モバイルウェブサイト構築でミニマリストデザインを実現する方法

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています多くの人が...

リンクを慎重に変更する:友人を騙す巧妙なトリック

SEO に長年携わっている人に「フレンドリー リンクを交換できますか?」と聞いたら、間違いなく笑われ...

台湾サーバー: zenlayer、30% 割引、台北データセンター、最大 10Gbps の帯域幅、カスタマイズ可能なリソース、月額 167 ドルから

Zenlayer は台湾に独自のデータセンターを持ち、台湾サーバー (ここでは独立したサーバー、物理...