最近、筆者はSEOを始めたばかり、またはSEOに1~2年従事している50人以上のSEO担当者を対象に小規模な調査を実施しました。その中には多くのインタビュー対象者も含まれています。実際に仕事でログを分析できるSEO担当者の割合は、非常に少ないです。SEOにおけるアクセスログの役割について尋ねると、多くのSEO担当者は首を横に振ったり、表面的な知識しか持っていなくても自分で操作したことがありませんでした。主な理由は、会社のプラットフォームで実践する機会がなかったためです。以下は、Webサイトの元のアクセスログに関する私の理解です。 アクセスログとは ウェブサイトのアクセス ログは、.log で終わるファイルで、ウェブ サーバーがリクエストを受信して処理する様子や実行時エラーなど、さまざまな生の情報が記録されます。正確には、サーバー ログです。その機能は、SEO 担当者が、ユーザーがウェブサイトのどのページを訪問したか、どの IP で、いつ、どのオペレーティング システム、どのブラウザ、どの解像度のモニターを使用しているか、また訪問が成功したかどうかを明確に把握できるようにすることです。 ログとログ機能を分析する必要があるのはいつですか? ログを毎日分析しますか? いいえ、ログ分析はかなり退屈なので、通常は月に 1 回または半月に 1 回行われます。このタイプの分析は、毎日の分析に属します。Web サイトが比較的正常であれば、月に 1 回分析するか、簡単な分析を 1 回実行できます。 実は、ログはWebサイトに異常が発生したときに採取されることが多いです。半月ほどログを観察し、スパイダーの動きを中心に分析していきます。例えば、ウェブサイトが404になっていないか、ロボットの設定に異常がないか、スパイダーが消える原因となったトロイの木馬がないかなどを分析し、問題点を一つずつ見つけて解決していきます。 以下は私が毎日分析しているログから取得したアクセス記録です。 119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou ウェブスパイダー/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)" 119.254.22.200はユーザーアクセスIPです 10/Apr/2012:00:04:54 +0800はアクセス日時ゾーンです GET /bbjk/index.html HTTP/1.0 HTTP/1.1 プロトコルに従って、ページ /bbjk/index.html (ドメイン名の下) をクロールします (GET はサーバー アクションを示します) 200 サーバー応答ステータスコード 25269 はページバイト数です。 Sogou ウェブ スパイダー/4.0 (+http://www.sogou.com/docs/help/webmasters.htm#07) は、Sogou スパイダー機能です。 注: スパイダーは、Web サイトの通常のユーザーです。スパイダーが非常に強力だと思わないでください。Web サイトがコンテンツを表示するためにログインを禁止している場合、スパイダーはログイン後にページのコンテンツをクロールできると信じている人がまだたくさんいます。これは不可能です。ただし、Web サイトがスパイダー固有のメソッドを実装している場合は除きます。 ウェブサイトのアクセスログを分析する方法 数年前、私が初めて SEO に触れたとき、ツールが不足しており、常に手書きでメモを取るのが好きだったことを覚えています。 アクセスログを解析するには、もちろん手動で解析するのは時間がかかり、手間がかかります。ここでは、手動ログ解析で私が最も気に入っている点をいくつか説明します。 著者の現在の手動分析は、一般的に、Web サイト上の毎日のスパイダー クローリング パターンと Web サイト更新データとの関係を調査することに重点を置いています。もちろん、各ウェブサイトは独自に遵守する必要があり、最終的には非常に完璧なルールが生まれます。 著者は、毎日のクモの訪問時間を期間ごとに分類し、レポートを作成します。 例: 2012-4-18 の 1 時から 2 時まで 5 回クロールする 2-3ポイントクロール3回 3-4点クロール10回 注意深く行えば、非常に直感的なトレンドチャートを作成できます。このタイプの統計は、通常、Web サイトが開設された直後、または Web サイトで異常が発生したときに分析ログで強化されます。日常の運用では、スパイダーの毎日のクローリング パターンを分析し、定期的に追加の記事を公開して包含を増やすことに重点が置かれます。 手動でのログ分析は退屈で、気分を害することもあります。しかし、ツールが普及しているこの時代では、ツールを使用することで、半分の労力で 2 倍の結果を達成することもできます。 著者は Lightyear ログ分析ツールを推奨しています。このツールは非常にシンプルなので、ここでは説明しません。興味があれば、Baidu で検索してください。このツールの利点は、生成されたレポートでスパイダーのクローリングの異常とページのクローリングの痕跡を明確に伝えることができることです。たとえば、404 などです。唯一の残念な点は、スパイダーのクローリング ルールを分析してトレンド チャートを生成できるツールをまだ見つけていないことです。 注: ログ分析では、自分の問題を改善するためにログから問題を見つけたい場合が多いため、404 や 301 などのステータス コードには特に注意する必要があります。 本物のクモと偽物のクモの見分け方 本物のスパイダーと偽物のスパイダーが存在する主な理由は、現在、情報が溢れているためです。相手に痕跡を発見されないように、多くの収集ツールはスパイダーの痕跡をシミュレートしてデータソースをダウンロードします。そのため、多くの SEO 担当者は、スパイダーが多数のページをクロールしていると誤解していますが、インデックスされたページの数は増えていないことに気づきます。以下では、本物のクモと偽物のクモを簡単に見分ける方法と、特に注意すべき点について説明します。 1. 本物のクモ 220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (互換; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" これは私のウェブサイトのログの一部です。IP アドレスを取り出し、Windows システムの DOS ボックスに nslookup 220.181.108.96 と入力して出力を表示しました。 上記のように、Baidu スパイダーの場合は、Baidu のドメイン名を直接エコーします。 2. 偽のクモ 典型的な偽スパイダーは、Baidu スパイダーをシミュレートするクエリ ツール chinaz です。その IP アドレスは 125.90.88.96 です。リバース チェックを行っても、Baidu ドメイン名は見つかりませんでした。興味があれば、nslookup 125.90.88.96 を実行してください。スクリーンショットは撮りません。 一般的に、偽のスパイダーは次の形式で存在します: XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" IP アドレスが怪しいことを除けば、本物とまったく同じように見えます。 3. 特殊な状況におけるクモ 1) CDN アクセラレーション後、IP の混乱が発生します。 このような状況は、通常、Web サイトに CDN アクセラレーションが実装されている場合に発生します。Apache サーバーのアクセス ログを確認すると、多くのスパイダー トレースに非常に類似した IP アドレスがあることがわかります。Baidu の公式識別方法に従って識別方法 nslookup IP を使用すると、これらの IP アドレスは CDN ノード IP アドレスであるため、間違いなく匿名になり、誤解を招くことになります。 CDN が有効になっている場合、スパイダーの実際の訪問数は通常、ログ内のスパイダーの合計数以下になります。 2) Baiduの匿名スパイダーの存在についての議論。 匿名の蜘蛛? Baidu のエンジニア Lee 氏は、Baidu のスパイダーが匿名でウェブサイトを訪問することはないということを常に強調してきましたが、著者はインターネット上の情報を参考にし、著者の特定のサイトのデータに基づいて推測しました。私は、次の 2 つの状況があると考えています。 1 つ目は、匿名のスパイダーが本当に存在する場合、これは明らかに Lee 氏の発言に反するということです。したがって、これを弁証法的に理解することができます。存在する場合、匿名スパイダーは何をしますか? 著者を含む多くの SEO 担当者は、そのようなスパイダーは、Web サイトがスパイダーとユーザーを別々に扱っているかどうかを確認するために使用される可能性があると推測しています。したがって、このような状況では、泥棒のように罪悪感を感じることなく、正直にウェブサイトを運営するべきです。 2 番目の可能性: Baidu の社員が社内であなたの Web サイトを訪問した可能性があります。Baidu の社員も人間であり、感情や欲望を持っています。おそらく、あなたの Web サイトは彼らの 1 人に発見され、あなたの Web サイトを訪問した後、Baidu IP を離れ、誤解を引き起こしたのでしょう。 (実際、百度のオンラインアライアンス部門など多くの部門が顧客情報を収集している) 注意: 本物のスパイダーと偽物のスパイダーを区別するときは、多くの側面を考慮する必要があり、IP のみを使用して信頼性を判断しないでください。 最後に、上記は著者が最近ウェブサイト http://baby.wenkang.cn を分析した経験です。短い経験談を書きたかったのですが、いつの間にか 3,000 語近くになってしまいました。質問がある場合は、私の QQ: 123464947 を追加してください。 --- Xiao Su、私に連絡して一緒に話し合ってください! 3 人の中には必ず先生がいて、一緒に進歩していきます! 原題: Xiao Su: ウェブサイトのオリジナルアクセスログの分析について、浅いところから深いところまで語る キーワード: ログ、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: 中小企業はどのようにして優れた SEO アウトソーシング チームを選択するのでしょうか?
>>: YihaodianオンサイトSEO最適化分析(I):オンサイトURL最適化
香港の VPS をご紹介します: dmit、大きな帯域幅、3 つのネットワークへの直接接続、デフォル...
SF映画のファンなら、いくつかのシーンをきっと覚えているでしょう。 『アイアンマン』では、トニー・ス...
5 年間の運営を経て、hostkvm はついに新しいものを手に入れました。香港の湾仔に新しいデータ ...
中国の商業市場では、ブランドが海外に進出すべきか、それとも市場に沈むべきかについて議論が尽きず、消費...
疫病の影響で、中国の企業向けサービスは大きな変化を遂げた。クラウドへの移行は、「すべきこと」から「必...
皆さんとコミュニケーションをとるためにA5に記事を書いてから、かなり長い時間が経ちました。私の心の中...
新しい環境に住むときはいつでも、地元の習慣、特に一部の少数民族の習慣を理解する必要があります。少数民...
設立5年のドイツのホスティング会社であるfilemediaは、現在5,000以上のVPSを保有してい...
もちろん、TCC トランザクション フレームワークでは、分散トランザクションの管理を解決する必要があ...
今夜、快博のCEO王欣はCCTVの「フォーカスインタビュー」に出演し、罪を認めて処罰を受け入れた。C...
報道によると、360 Search はリリース後短期間で国内検索市場の 10% のシェアを獲得したそ...
Imidc の香港、台湾、日本のデータセンターでは、独立サーバーの特別プロモーションを同時に実施して...
12月5日夜、文化部は「オンラインゲームの運営を規制し、イベント中およびイベント後の監督を強化する通...
4月1日、いつものように生放送バーにログインして、ゲームの具体的な時間と生放送メディアを確認してくだ...
SEO 最適化に関しては、キーワードについて言及することは避けられません。 SEO 最適化に関しては...