最近、筆者はSEOを始めたばかり、またはSEOに1~2年従事している50人以上のSEO担当者を対象に小規模な調査を実施しました。その中には多くのインタビュー対象者も含まれています。実際に仕事でログを分析できるSEO担当者の割合は、非常に少ないです。SEOにおけるアクセスログの役割について尋ねると、多くのSEO担当者は首を横に振ったり、表面的な知識しか持っていなくても自分で操作したことがありませんでした。主な理由は、会社のプラットフォームで実践する機会がなかったためです。以下は、Webサイトの元のアクセスログに関する私の理解です。 アクセスログとは ウェブサイトのアクセス ログは、.log で終わるファイルで、ウェブ サーバーがリクエストを受信して処理する様子や実行時エラーなど、さまざまな生の情報が記録されます。正確には、サーバー ログです。その機能は、SEO 担当者が、ユーザーがウェブサイトのどのページを訪問したか、どの IP で、いつ、どのオペレーティング システム、どのブラウザ、どの解像度のモニターを使用しているか、また訪問が成功したかどうかを明確に把握できるようにすることです。 ログとログ機能を分析する必要があるのはいつですか? ログを毎日分析しますか? いいえ、ログ分析はかなり退屈なので、通常は月に 1 回または半月に 1 回行われます。このタイプの分析は、毎日の分析に属します。Web サイトが比較的正常であれば、月に 1 回分析するか、簡単な分析を 1 回実行できます。 実は、ログはWebサイトに異常が発生したときに採取されることが多いです。半月ほどログを観察し、スパイダーの動きを中心に分析していきます。例えば、ウェブサイトが404になっていないか、ロボットの設定に異常がないか、スパイダーが消える原因となったトロイの木馬がないかなどを分析し、問題点を一つずつ見つけて解決していきます。 以下は私が毎日分析しているログから取得したアクセス記録です。 119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou ウェブスパイダー/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)" 119.254.22.200はユーザーアクセスIPです 10/Apr/2012:00:04:54 +0800はアクセス日時ゾーンです GET /bbjk/index.html HTTP/1.0 HTTP/1.1 プロトコルに従って、ページ /bbjk/index.html (ドメイン名の下) をクロールします (GET はサーバー アクションを示します) 200 サーバー応答ステータスコード 25269 はページバイト数です。 Sogou ウェブ スパイダー/4.0 (+http://www.sogou.com/docs/help/webmasters.htm#07) は、Sogou スパイダー機能です。 注: スパイダーは、Web サイトの通常のユーザーです。スパイダーが非常に強力だと思わないでください。Web サイトがコンテンツを表示するためにログインを禁止している場合、スパイダーはログイン後にページのコンテンツをクロールできると信じている人がまだたくさんいます。これは不可能です。ただし、Web サイトがスパイダー固有のメソッドを実装している場合は除きます。 ウェブサイトのアクセスログを分析する方法 数年前、私が初めて SEO に触れたとき、ツールが不足しており、常に手書きでメモを取るのが好きだったことを覚えています。 アクセスログを解析するには、もちろん手動で解析するのは時間がかかり、手間がかかります。ここでは、手動ログ解析で私が最も気に入っている点をいくつか説明します。 著者の現在の手動分析は、一般的に、Web サイト上の毎日のスパイダー クローリング パターンと Web サイト更新データとの関係を調査することに重点を置いています。もちろん、各ウェブサイトは独自に遵守する必要があり、最終的には非常に完璧なルールが生まれます。 著者は、毎日のクモの訪問時間を期間ごとに分類し、レポートを作成します。 例: 2012-4-18 の 1 時から 2 時まで 5 回クロールする 2-3ポイントクロール3回 3-4点クロール10回 注意深く行えば、非常に直感的なトレンドチャートを作成できます。このタイプの統計は、通常、Web サイトが開設された直後、または Web サイトで異常が発生したときに分析ログで強化されます。日常の運用では、スパイダーの毎日のクローリング パターンを分析し、定期的に追加の記事を公開して包含を増やすことに重点が置かれます。 手動でのログ分析は退屈で、気分を害することもあります。しかし、ツールが普及しているこの時代では、ツールを使用することで、半分の労力で 2 倍の結果を達成することもできます。 著者は Lightyear ログ分析ツールを推奨しています。このツールは非常にシンプルなので、ここでは説明しません。興味があれば、Baidu で検索してください。このツールの利点は、生成されたレポートでスパイダーのクローリングの異常とページのクローリングの痕跡を明確に伝えることができることです。たとえば、404 などです。唯一の残念な点は、スパイダーのクローリング ルールを分析してトレンド チャートを生成できるツールをまだ見つけていないことです。 注: ログ分析では、自分の問題を改善するためにログから問題を見つけたい場合が多いため、404 や 301 などのステータス コードには特に注意する必要があります。 本物のクモと偽物のクモの見分け方 本物のスパイダーと偽物のスパイダーが存在する主な理由は、現在、情報が溢れているためです。相手に痕跡を発見されないように、多くの収集ツールはスパイダーの痕跡をシミュレートしてデータソースをダウンロードします。そのため、多くの SEO 担当者は、スパイダーが多数のページをクロールしていると誤解していますが、インデックスされたページの数は増えていないことに気づきます。以下では、本物のクモと偽物のクモを簡単に見分ける方法と、特に注意すべき点について説明します。 1. 本物のクモ 220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (互換; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" これは私のウェブサイトのログの一部です。IP アドレスを取り出し、Windows システムの DOS ボックスに nslookup 220.181.108.96 と入力して出力を表示しました。 上記のように、Baidu スパイダーの場合は、Baidu のドメイン名を直接エコーします。 2. 偽のクモ 典型的な偽スパイダーは、Baidu スパイダーをシミュレートするクエリ ツール chinaz です。その IP アドレスは 125.90.88.96 です。リバース チェックを行っても、Baidu ドメイン名は見つかりませんでした。興味があれば、nslookup 125.90.88.96 を実行してください。スクリーンショットは撮りません。 一般的に、偽のスパイダーは次の形式で存在します: XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" IP アドレスが怪しいことを除けば、本物とまったく同じように見えます。 3. 特殊な状況におけるクモ 1) CDN アクセラレーション後、IP の混乱が発生します。 このような状況は、通常、Web サイトに CDN アクセラレーションが実装されている場合に発生します。Apache サーバーのアクセス ログを確認すると、多くのスパイダー トレースに非常に類似した IP アドレスがあることがわかります。Baidu の公式識別方法に従って識別方法 nslookup IP を使用すると、これらの IP アドレスは CDN ノード IP アドレスであるため、間違いなく匿名になり、誤解を招くことになります。 CDN が有効になっている場合、スパイダーの実際の訪問数は通常、ログ内のスパイダーの合計数以下になります。 2) Baiduの匿名スパイダーの存在についての議論。 匿名の蜘蛛? Baidu のエンジニア Lee 氏は、Baidu のスパイダーが匿名でウェブサイトを訪問することはないということを常に強調してきましたが、著者はインターネット上の情報を参考にし、著者の特定のサイトのデータに基づいて推測しました。私は、次の 2 つの状況があると考えています。 1 つ目は、匿名のスパイダーが本当に存在する場合、これは明らかに Lee 氏の発言に反するということです。したがって、これを弁証法的に理解することができます。存在する場合、匿名スパイダーは何をしますか? 著者を含む多くの SEO 担当者は、そのようなスパイダーは、Web サイトがスパイダーとユーザーを別々に扱っているかどうかを確認するために使用される可能性があると推測しています。したがって、このような状況では、泥棒のように罪悪感を感じることなく、正直にウェブサイトを運営するべきです。 2 番目の可能性: Baidu の社員が社内であなたの Web サイトを訪問した可能性があります。Baidu の社員も人間であり、感情や欲望を持っています。おそらく、あなたの Web サイトは彼らの 1 人に発見され、あなたの Web サイトを訪問した後、Baidu IP を離れ、誤解を引き起こしたのでしょう。 (実際、百度のオンラインアライアンス部門など多くの部門が顧客情報を収集している) 注意: 本物のスパイダーと偽物のスパイダーを区別するときは、多くの側面を考慮する必要があり、IP のみを使用して信頼性を判断しないでください。 最後に、上記は著者が最近ウェブサイト http://baby.wenkang.cn を分析した経験です。短い経験談を書きたかったのですが、いつの間にか 3,000 語近くになってしまいました。質問がある場合は、私の QQ: 123464947 を追加してください。 --- Xiao Su、私に連絡して一緒に話し合ってください! 3 人の中には必ず先生がいて、一緒に進歩していきます! 原題: Xiao Su: ウェブサイトのオリジナルアクセスログの分析について、浅いところから深いところまで語る キーワード: ログ、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: 中小企業はどのようにして優れた SEO アウトソーシング チームを選択するのでしょうか?
>>: YihaodianオンサイトSEO最適化分析(I):オンサイトURL最適化
Web2.0 から Web3.0 への移行が加速しており、世界のデータ ストレージ容量は「爆発的な」...
2018年1月、ZJIの香港葵湾データセンターの香港サーバー2機種が40%割引で提供され、日本CN2...
誰かが私に swap について尋ねました。正直に言うと、私も理解していませんでした。その後、Goog...
Kurunはロサンゼルスのクラウドサーバーのネットワークをアップグレードし、China Mobile...
中国の株式投資産業の急速な発展に伴い、株式投資データサービスの顧客層の特徴と消費需要も静かに変化し...
Atlantic.Net は 1994 年に設立され、戦略的に進化して市場をリードするクラウド ホス...
4月11日、北京万寿ホテルで2019年(第5回)中国オープンソースクラウドコンピューティングユーザー...
最近、IT コミュニティ (特に一部の政府部門) では、従来のテクノロジーを近代化し、新しい代替手段...
数年前、レイ・カーツワイルは『The Singularity Is Near』という本を書きました。...
Docker をサポートし、安定性と信頼性に優れた KVM VPS をお探しの場合は、SSDNODE...
Liziqiは幸運な人だと言う人が多すぎます。実際、李子奇の現在の状況は、最初から最も適切な道を選ん...
このタイトルを思いついたとき、私はまだウェブサイトの宣伝に取り組んでいました。しかし、時代は変わり、...
毎日、何百万、何千万もの 404 プロンプト ページが表示されます。このような退屈なページ リソース...
今、私は腰痛の治療方法に関するウェブサイトを作成しています。毎日仕事に行くと、まずウェブサイトの更新...
Hawkhost は毎年恒例のブラックフライデー プロモーションを開始し、仮想ホスティング、リセラー...