暁蘇:ウェブサイトのオリジナルアクセスログの浅いところから深いところまでの分析について語る

暁蘇:ウェブサイトのオリジナルアクセスログの浅いところから深いところまでの分析について語る

最近、筆者はSEOを始めたばかり、またはSEOに1~2年従事している50人以上のSEO担当者を対象に小規模な調査を実施しました。その中には多くのインタビュー対象者も含まれています。実際に仕事でログを分析できるSEO担当者の割合は、非常に少ないです。SEOにおけるアクセスログの役割について尋ねると、多くのSEO担当者は首を横に振ったり、表面的な知識しか持っていなくても自分で操作したことがありませんでした。主な理由は、会社のプラットフォームで実践する機会がなかったためです。以下は、Webサイトの元のアクセスログに関する私の理解です。

アクセスログとは

ウェブサイトのアクセス ログは、.log で終わるファイルで、ウェブ サーバーがリクエストを受信して​​処理する様子や実行時エラーなど、さまざまな生の情報が記録されます。正確には、サーバー ログです。その機能は、SEO 担当者が、ユーザーがウェブサイトのどのページを訪問したか、どの IP で、いつ、どのオペレーティング システム、どのブラウザ、どの解像度のモニターを使用しているか、また訪問が成功したかどうかを明確に把握できるようにすることです。

ログとログ機能を分析する必要があるのはいつですか?

ログを毎日分析しますか? いいえ、ログ分析はかなり退屈なので、通常は月に 1 回または半月に 1 回行われます。このタイプの分析は、毎日の分析に属します。Web サイトが比較的正常であれば、月に 1 回分析するか、簡単な分析を 1 回実行できます。

実は、ログはWebサイトに異常が発生したときに採取されることが多いです。半月ほどログを観察し、スパイダーの動きを中心に分析していきます。例えば、ウェブサイトが404になっていないか、ロボットの設定に異常がないか、スパイダーが消える原因となったトロイの木馬がないかなどを分析し、問題点を一つずつ見つけて解決していきます。

以下は私が毎日分析しているログから取得したアクセス記録です。

119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou ウェブスパイダー/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

119.254.22.200はユーザーアクセスIPです

10/Apr/2012:00:04:54 +0800はアクセス日時ゾーンです

GET /bbjk/index.html HTTP/1.0 HTTP/1.1 プロトコルに従って、ページ /bbjk/index.html (ドメイン名の下) をクロールします (GET はサーバー アクションを示します)

200 サーバー応答ステータスコード

25269 はページバイト数です。

Sogou ウェブ スパイダー/4.0 (+http://www.sogou.com/docs/help/webmasters.htm#07) は、Sogou スパイダー機能です。

注: スパイダーは、Web サイトの通常のユーザーです。スパイダーが非常に強力だと思わないでください。Web サイトがコンテンツを表示するためにログインを禁止している場合、スパイダーはログイン後にページのコンテンツをクロールできると信じている人がまだたくさんいます。これは不可能です。ただし、Web サイトがスパイダー固有のメソッドを実装している場合は除きます。

ウェブサイトのアクセスログを分析する方法

数年前、私が初めて SEO に触れたとき、ツールが不足しており、常に手書きでメモを取るのが好きだったことを覚えています。

アクセスログを解析するには、もちろん手動で解析するのは時間がかかり、手間がかかります。ここでは、手動ログ解析で私が最も気に入っている点をいくつか説明します。

著者の現在の手動分析は、一般的に、Web サイト上の毎日のスパイダー クローリング パターンと Web サイト更新データとの関係を調査することに重点を置いています。もちろん、各ウェブサイトは独自に遵守する必要があり、最終的には非常に完璧なルールが生まれます。

著者は、毎日のクモの訪問時間を期間ごとに分類し、レポートを作成します。

例: 2012-4-18 の 1 時から 2 時まで 5 回クロールする

2-3ポイントクロール3回

3-4点クロール10回

注意深く行えば、非常に直感的なトレンドチャートを作成できます。このタイプの統計は、通常、Web サイトが開設された直後、または Web サイトで異常が発生したときに分析ログで強化されます。日常の運用では、スパイダーの毎日のクローリング パターンを分析し、定期的に追加の記事を公開して包含を増やすことに重点が置かれます。

手動でのログ分析は退屈で、気分を害することもあります。しかし、ツールが普及しているこの時代では、ツールを使用することで、半分の労力で 2 倍の結果を達成することもできます。

著者は Lightyear ログ分析ツールを推奨しています。このツールは非常にシンプルなので、ここでは説明しません。興味があれば、Baidu で検索してください。このツールの利点は、生成されたレポートでスパイダーのクローリングの異常とページのクローリングの痕跡を明確に伝えることができることです。たとえば、404 などです。唯一の残念な点は、スパイダーのクローリング ルールを分析してトレンド チャートを生成できるツールをまだ見つけていないことです。

注: ログ分析では、自分の問題を改善するためにログから問題を見つけたい場合が多いため、404 や 301 などのステータス コードには特に注意する必要があります。

本物のクモと偽物のクモの見分け方

本物のスパイダーと偽物のスパイダーが存在する主な理由は、現在、情報が溢れているためです。相手に痕跡を発見されないように、多くの収集ツールはスパイダーの痕跡をシミュレートしてデータソースをダウンロードします。そのため、多くの SEO 担当者は、スパイダーが多数のページをクロールしていると誤解していますが、インデックスされたページの数は増えていないことに気づきます。以下では、本物のクモと偽物のクモを簡単に見分ける方法と、特に注意すべき点について説明します。

1. 本物のクモ

220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (互換; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

これは私のウェブサイトのログの一部です。IP アドレスを取り出し、Windows システムの DOS ボックスに nslookup 220.181.108.96 と入力して出力を表示しました。

上記のように、Baidu スパイダーの場合は、Baidu のドメイン名を直接エコーします。

2. 偽のクモ

典型的な偽スパイダーは、Baidu スパイダーをシミュレートするクエリ ツール chinaz です。その IP アドレスは 125.90.88.96 です。リバース チェックを行っても、Baidu ドメイン名は見つかりませんでした。興味があれば、nslookup 125.90.88.96 を実行してください。スクリーンショットは撮りません。

一般的に、偽のスパイダーは次の形式で存在します: XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

IP アドレスが怪しいことを除けば、本物とまったく同じように見えます。

3. 特殊な状況におけるクモ

1) CDN アクセラレーション後、IP の混乱が発生します。

このような状況は、通常、Web サイトに CDN アクセラレーションが実装されている場合に発生します。Apache サーバーのアクセス ログを確認すると、多くのスパイダー トレースに非常に類似した IP アドレスがあることがわかります。Baidu の公式識別方法に従って識別方法 nslookup IP を使用すると、これらの IP アドレスは CDN ノード IP アドレスであるため、間違いなく匿名になり、誤解を招くことになります。 CDN が有効になっている場合、スパイダーの実際の訪問数は通常、ログ内のスパイダーの合計数以下になります。

2) Baiduの匿名スパイダーの存在についての議論。

匿名の蜘蛛? Baidu のエンジニア Lee 氏は、Baidu のスパイダーが匿名でウェブサイトを訪問することはないということを常に強調してきましたが、著者はインターネット上の情報を参考にし、著者の特定のサイトのデータに基づいて推測しました。私は、次の 2 つの状況があると考えています。

1 つ目は、匿名のスパイダーが本当に存在する場合、これは明らかに Lee 氏の発言に反するということです。したがって、これを弁証法的に理解することができます。存在する場合、匿名スパイダーは何をしますか? 著者を含む多くの SEO 担当者は、そのようなスパイダーは、Web サイトがスパイダーとユーザーを別々に扱っているかどうかを確認するために使用される可能性があると推測しています。したがって、このような状況では、泥棒のように罪悪感を感じることなく、正直にウェブサイトを運営するべきです。

2 番目の可能性: Baidu の社員が社内であなたの Web サイトを訪問した可能性があります。Baidu の社員も人間であり、感情や欲望を持っています。おそらく、あなたの Web サイトは彼らの 1 人に発見され、あなたの Web サイトを訪問した後、Baidu IP を離れ、誤解を引き起こしたのでしょう。 (実際、百度のオンラインアライアンス部門など多くの部門が顧客情報を収集している)

注意: 本物のスパイダーと偽物のスパイダーを区別するときは、多くの側面を考慮する必要があり、IP のみを使用して信頼性を判断しないでください。

最後に、上記は著者が最近ウェブサイト http://baby.wenkang.cn を分析した経験です。短い経験談を書きたかったのですが、いつの間にか 3,000 語近くになってしまいました。質問がある場合は、私の QQ: 123464947 を追加してください。 --- Xiao Su、私に連絡して一緒に話し合ってください! 3 人の中には必ず先生がいて、一緒に進歩していきます!

原題: Xiao Su: ウェブサイトのオリジナルアクセスログの分析について、浅いところから深いところまで語る

キーワード: ログ、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  中小企業はどのようにして優れた SEO アウトソーシング チームを選択するのでしょうか?

>>:  YihaodianオンサイトSEO最適化分析(I):オンサイトURL最適化

推薦する

夕方のピーク時のhosteonsの最新Ryzen 9 3900+DDR4+NVMeシリーズVPSの簡単なレビュー

AMD の人気が高まるにつれ、ますます多くの VPS ベンダーが AMD プラットフォームを導入し、...

ウェブサイトが検索エンジンに掲載されるかどうかはどのような状況によって左右されるか

なぜ参加するのが難しいのでしょうか?これは、検索エンジン ロボットがサイト自体を理解しない非常に単純...

#大容量ハードドライブ VPS# budgetnode - 年間 24 ドルの支払い / KVM / 512 MB メモリ / 250 g ハードドライブ / 1 T トラフィック

budgetnode は、サイバーマンデーに関する非常に役立つ情報をお届けします。英国の高構成 KV...

ウェブサイトの最適化におけるターゲットキーワードの選択方法に関する簡単な分析

ターゲットキーワードは SEO において最も重要な概念の 1 つです。ターゲット キーワードとは何で...

マルチクラウドアーキテクチャが組織の焦点となる

マルチクラウドとは、組織が AWS、Azure、Google Cloud Platform などの主...

Kaola.com の完全なクラウドネイティブ移行への道

今年8月末、1年間「アリ動物園」にいたKoala.comが初めて戦略的なアップグレードを発表した。同...

業界ウェブサイト構築コンテンツレイアウト

私はA5で業界ウェブサイト構築に関する「業界ウェブサイト構築のキーワードレイアウト」、「業界ウェブサ...

ハイパーリンク不正行為への対策に関するいくつかの重要な疑問

23日に百度が発表した「ハイパーリンク不正行為に関するアルゴリズムのアップグレード」の発表については...

クラウド導入を加速するHuayun Dataは、製造業の変革とアップグレードを支援します。

2019年4月12日、無錫情報化協会が主催し、華雲データテクノロジーサービス株式会社が主催する「クラ...

ウェブサイト運用その1 - 運用計画

今日は、ウェブサイトの運営に関する一連の記事を公開し、個人的な運営経験や遭遇した困難を共有することを...

おすすめ: dotster - 仮想ホスティングが 50% オフ

Dotter、2008 年に会社の Web サイトに小さなアメリカ支社を構築したときに使用しました。...

hostdare: 15% オフ、US cn2 gia シリーズ VPS、年間 30 ドルから、512M メモリ/1 コア/10g NVMe/250g 帯域幅

Hostdare は現在 15% 割引を提供しています。これは、HDD および NVMe ハード ド...