1. 技術の理想化 各データ収集方法には独自の技術的利点がありますが、ウェブサイト訪問者のすべての行動を完璧に把握できる収集方法はありません。各技術にも独自の制限があり、表示されるデータは不完全になります。ページ滞在時間の計算を例にとると、次の図は訪問の時間記録です。(図の時間はページに入った時間です) ページ滞在時間を計算する方法は通常、現在のページのエントリ時間と次のページのエントリ時間の差です。上記の例では、ページのステータスは次のようになっていることがわかります。 ページA: 5分 ページB: 1分 ページC: 4分 ページD:? なぜページ D の滞在時間がないのでしょうか? そうです、どのデータ収集方法を使用しても、ページ D の正確な滞在時間をキャプチャすることは不可能です。 理由は非常に簡単です。 これらのデータ収集方法では、訪問者が離脱する瞬間 (クリックせずに終了ページに長時間滞在するか、ブラウザを直接閉じる) をキャプチャできないためです。そのため、ツールメーカーによって、終了ページでの滞在時間の定義が異なります。一律に 1 分と計算するメーカーもあれば、単に 0 分と見なすメーカーもあります。 現在、データの取得を制限したり、既存の収集データを難読化したりする主なテクノロジーがいくつかあります。 1. キャッシュ ここで言うキャッシュとは、CPU などの物理チップのキャッシュではなく、ネットワーク リソースを節約し、Web ページの閲覧速度を向上させるために設けられるブラウザ キャッシュやプロキシ サーバー キャッシュを指します。これら 2 種類のキャッシュを簡単に説明すると、アクセスした Web ページのコンテンツ (画像や Cookie ファイルなどを含む) がコンピューターまたはプロキシ サーバーに保存されるということです。以前読んだページを呼び出すときに、Web サイト サーバーからデータを再送信することなく、キャッシュ内のコンテンツを直接呼び出すことができます。 次の図は、Web サイトにアクセスした後にローカル キャッシュ フォルダーに残されたファイル レコードを示しています。 訪問者がローカル キャッシュ経由で Web サイトにアクセスする場合、Web サイト サーバーにリクエストは送信されないため、当然、サーバー内にこの訪問のログ記録は残りません。つまり、Web ログを通じて収集されたデータでは、トラフィックのこの部分が確実に失われることになります。 2. ウェブクローラー 検索エンジンのクローラーの原理やアルゴリズムを説明するには、1 つの章を開くだけでは不十分かもしれませんし、それはこの本の焦点ではないので、ここでは詳細には立ち入りません。 以下は、Web サイトのサーバー ログ内の検索エンジン クローラーの記録です。 203.208.60.178 [10/Nov/2011:12:00:00 +0800] "-" "GET /index.php HTTP/1.1" 200 30000 "-" "Mozilla/5.0 (互換; Googlebot/2.1; +http://www.google.com/bot.html)" 上記のログ記録から、2011 年 11 月 10 日 12:00:00 に Googlebot (Google の検索エンジン クローラー名) がホームページ/index.php にアクセスしてクロールしたことがわかります。 つまり、このデータは Web ログによって収集されたデータと混合されることになります。同時に、クローラーがウェブサイトのサーバーにアクセスするのは重要な情報をダウンロードして取得するためだけであり、ネットユーザーがアクセスしたときのようにウェブページのコンテンツがブラウザに表示されるわけではないことに注意する必要があります。つまり、この時点ではウェブページのソースコード内の JavaScript データ収集コードを実行できません。 3. ファイアウォール ファイアウォールの動作原理とメカニズムは非常に複雑なので、ここでは詳しく説明しません。興味のある方は、Wikipedia やその他のリソースから詳細を学ぶことができます。 ファイアウォールの機能を簡単に理解するには、信頼レベルに基づいてネットワーク内でやり取りされるデータ フローを制御するものと考えることができます。これは、通過しようとするデータ ストリームを継続的に監視してフィルタリングするフィルターのように機能します。 ファイアウォールはネットワークにセキュリティをもたらしますが、JavaScript スクリプトがデータ収集サーバーにデータを送信するのをブロックする可能性もあります。これにより、JavaScript タグのトラフィックが一部失われることは間違いありません。 2. 訪問者の理想化 Web 分析は主に、Web サイト上の訪問者の行動を追跡するために使用されますが、訪問者の個人用コンピューター上での行動によって影響を受けることがよくあります。おそらくこれは理想と現実のギャップです。なぜなら、すべてのネットユーザーが自分の望むようにインターネットを閲覧するとは期待できないからです。 1. IP設定 ウェブログは、データを収集する際に、主に訪問者の IP に依存してユニーク訪問者を区別します。ただし、次の動的 IP 割り当て方法が登場すると、収集されたデータにエラーが発生することは避けられません。 マシン上で異なる IP アドレスを使用すると、実際にカウントされる訪問者数よりも多くの訪問者がカウントされる可能性があります。ウェブサイト分析ツールの統計は、実際の訪問者数ではなく、個々の IP またはブラウザのみであることがわかります。複数の人が同じコンピュータを使用する場合、正しくカウントできるかどうかは言うまでもありません。 2. JavaScriptの有効設定 訪問者の中には、安全性を確保するためにブラウザで有効な JavaScript 設定をオフにすることを選択する人もいますが、その結果、一部の Web ページの効果が失われるだけでなく、JavaScript タグを使用するツール ベンダーの場合、対象 Web サイトでのこれらの訪問者のアクションの記録もすべて失われます。 3. クッキー設定 (1)クッキーを無効にする インターネットの普及により、人々は総合的な情報化社会に入り、個人情報保護に対する意識が次第に強まってきています。プライバシー情報に対する敏感さから、Cookie を無効にすることを選択する人もいます。 (上の図からわかるように、Cookie設定はファーストパーティCookieとサードパーティCookieの2種類に分けられます。2種類のCookieの違いについては、興味のある方はオンライン情報を参照してください) クッキーがなければ、JavaScript タグは訪問数とユニーク訪問者数を区別できません。これら 2 つの基本的な指標がなければ、Web サイトの分析でできることはあまりありません。したがって、Cookie を無効にすると、データを収集する JavaScript タグに大きな打撃を与えます。 (2)クッキーの削除 データ保護などの理由から、Cookie が削除されることがよくあります。 クッキーを定期的または不定期に削除すると、ユニークビジターの数が実際の数よりも多く表示されることになります。クッキーが削除されると、新しいクッキーが再作成されるため、同じ訪問者が繰り返しカウントされることになります。 (3)複数のブラウザ 同じウェブサイトであっても、ブラウザによって同じコンピュータ上に異なる Cookie が設定されます。 上の図から、同じ訪問者が 3 つの異なるブラウザを使用して Web サイトにアクセスすると、JavaScript タグは Cookie が異なるため、この 1 人を 3 人としてカウントすることがわかります。 このような一見悪いデータに直面した場合、誤ったデータによって引き起こされる分析エラーを回避するためにどのような対策を講じることができるでしょうか? 3. 不完全なデータへの対処方法 これまでの議論から、さまざまなデータ収集方法が統計結果に直接影響を与えるだけでなく、多くの技術的要因や主観的要因も統計結果にさまざまな影響を与えることがわかります。このような「悪い」データに直面した場合、どうすれば行動を導くための洞察を得ることができるのでしょうか? まず、一定期間にわたる Google アナリティクスとディメンション分析の統計結果を見てみましょう。 (注: 上記のレポートは説明目的のみであり、真実ではありません。データと形式は架空のものです。) 一見すると、共通するデータがまったくないこれら 2 つのレポートを見ると混乱するかもしれません。 Google Analytics と Wikipedia のどちらを信頼すべきでしょうか? この質問にまだ悩んでいるなら、今すぐやめてください。収集したデータが 100% 正確であることを保証できるツールはないため、ある程度のエラーは避けられません。視点を変えると、次の 2 つのレポートに同じ情報が含まれている可能性があります。 2 つのツールで収集されたデータは同様の傾向を示していることがわかります。10 月 1 日の国慶節の休暇中にトラフィックが一時的に落ち込んだ後、5 日からトラフィックは徐々に回復しました。この傾向の背後にある理由を分析することは、特定の日の正確な数値を調査するよりもはるかに有意義です。たとえ正確な数字を持っていたとしても、そこから意思決定に使える情報を見つけられなければ意味がありません。トレンドは、数字の海の中で正しい方向に進むのに役立ちます。 4. 欲しいものを手に入れる方法 1. JavaScriptタグの配置 JavaScript タグ データ収集の原則では、データを収集できるかどうか、また収集されたデータが目的のものであるかどうかは、JavaScript タグ コードを正しく実行できるかどうかによって決まります。つまり、データ収集プロセスでミスをすると、その後の分析作業に修復不可能な影響が出ることになります (データ収集ミスが原因で、訪問者は過去の訪問プロセスを再現する手助けをしてくれません)。 JavaScript タグを配置するには、少なくとも次のことが必要です。 (1)カウントしたいページを見逃さないようにする JavaScript タグは、データ収集の点で Web ログとは異なります。ページを見逃すと、そのページでの訪問者のアクションの記録がすべて失われます。 (2)タグをページコードの最後に置くようにする 訪問者がダウンロードした後、ページコードは上から下に向かって実行されるため、タグをページの先頭に配置すると、JavaScript タグコードの実行によってページの表示が遅れるだけでなく、データ収集サーバーに障害が発生した場合にページが正しく表示されない可能性があります。したがって、ページの高速かつ正常な表示に影響を与えないように、タグをページコードの最後(通常は前)に配置するようにしてください。 もちろん、特別な統計 (ページ リンクのクリックなど) を実行するには、タグをヘッダーに配置して、タグで定義されたメソッドをページ内で正常に呼び出せるようにする必要があります。 2. ページの一意のID 原則として、ページの URL は異なるページを区別する識別子ですが、動的ページの適用などにより、同じページであってもパラメータの違いや大文字と小文字の不一致により異なるページとしてカウントされ、分析に直接支障をきたすことがあります。同じページが複数のページとしてカウントされるレポートの例を次に示します。 ページを一意に識別するには、次の操作を実行します。 (1)デフォルトページを設定する www.example.com と www.example.com/index.html の両方が Web サイトのデフォルト ページを指している場合、デフォルト ページを設定すると、これらが 2 つの異なるページとしてカウントされるのを防ぐことができます。 一般的に、分析ツールではデフォルトページを設定するためのインターフェースが提供されているため、ここでは設定方法について詳しく説明しません。 (2)URLの大文字小文字を統一する Google Analytics などの分析ツールでは、URL の大文字と小文字の不一致により、同じページが異なる URL のページとしてカウントされるため、この状況を回避するには、統計データにフィルターを設定し、URL を大文字または小文字に統一します (通常、分析ツールにはデータのフィルタリング設定が用意されています)。 (3)URL内の冗長なパラメータを除外する 動的 Web アプリケーションでは、同じページ URL にさまざまなパラメータを設定する必要があるため、分析ツールでは、異なるパラメータを持つ URL が複数の異なるページとしてカウントされます。この統計エラーは、特定のパラメータをフィルタリングすることで回避できます。たとえば、上記のレポート サンプルで testid パラメータを除外すると、/Item.php?testid=1 と /Item.php?testid=2 を同じページとしてカウントできます。 3. 冗長なデータを除外する (1)IPフィルタリング 自分自身またはテスターのアクセス トラフィックを除外するには、IP をフィルタリングしてトラフィックのこの部分を除外できます。 (2)サブドメインフィルタリング 特定のサブドメインのトラフィックのみを気にする場合は、サブドメインをフィルタリングして、この部分のトラフィックのみを含めることができます。 上記は、よく使用される 2 つのフィルター設定にすぎません。通常、ツールはさまざまなニーズを満たすためにさまざまなフィルター設定インターフェイスを提供します。 付録: ウェブサイト分析ツールベンダーに尋ねるべき技術的パラメータ 1. 有効なアクセス時間制限(通常30分) 2. 毎日強制的にアクセスを遮断する時刻(有効なアクセス時間制限を超過しているかどうかに関わらず、この時刻以降は強制的にアクセスが遮断されます。通常は早朝の時間帯) 3. リピーターCookieの有効期間を決定します(この期間中に繰り返し訪問するとリピーターとして識別されます。通常は1年または2年です) 4. 最後にページに滞在した時間(通常、デフォルトは 1 分または 0 分です。ツールがこのデータを収集できる場合は、特定の収集方法を参照してください) (著作権はDigital Forest Website Analysis Blogに帰属します。転載は歓迎しますが、出典を明記してください。) 原文: http://blog.digitalforest.cn/wangzhanfenxi-shuju-buwanmei 元のタイトル: 不完全な Web 分析データ: 理想化されたデータと理想化された訪問者 キーワード: 不完全、ウェブサイト分析、理想、訪問者管理、理想化、テクノロジー、それぞれ、ウェブマスター、ウェブサイトのプロモーション、収益化 |
<<: PR 値が更新されようとしています。しばらくお待ちください。
>>: ウェブサイト分析ハック: エントリー、エグジット、バウンスレポート (パート 2)
[51CTO.comより引用] 先日、51CTOとIntelが共催する「高速ビジネス下のITアーキテ...
近年開発された強力なテクノロジーであるエッジ コンピューティングは、IoT デバイスを所有する企業に...
今日、私は偶然、特定のウェブサイトタイトルや特定のウェブサイトの説明のないウェブサイトがBaiduで...
コンテナ革命の始まりから、2 つのことが明らかになりました。まず、テクノロジー スタックのレイヤーの...
[[343093]]クラウド コンピューティングは成長を続け、IT の事実上の標準となっています。こ...
以前、フリーランサーとして、私はリラックスした仕事生活を切望していました。2010年に仕事を始めてか...
最近、「マイクロマーケティング」は間違いなくマーケティングのホットな話題です。多くの伝統的な企業が「...
[51CTO.com クイック翻訳] Kubernetes とコンテナは、アプリケーションの構築、展...
検索エンジンのアルゴリズムは機密事項であり、日々調整されていると言われていますが、詳細は誰も知りませ...
Seopasswordは、最近SEO業界のダークホースとみなされています。わずか2、3か月で、百度イ...
NetApp は本日、新しい NetApp ONTAP ソフトウェア、フラッシュ システム、および拡...
404 エラー ページとは何ですか? ここで言及している 404 ページとは、何らかの理由により、ク...
最近、Sina Weiboが音楽業界を怒らせた。 「新浪微博は公演情報や本の共有会の流通を制限した。...
私は論文ウェブサイトを作成し、2009年8月6日にBaiduにインデックスされました。その後、ウェブ...
ウェブサイトの最適化にしろ、ウェブサイトの運用にしろ、高品質なコンテンツは欠かせない最優先事項です。...