Baiduウェブマスターツールの外部リンクツールで照会された外部リンクデータを分析するために、Pythonスクリプトを書きました。ウェブマスタープラットフォームから直接データを取得することで、分析用のすべてのデータを保存し、サイト上のリンクされたページ+回数、外部リンクのルートドメイン+ドメイン名の下のリンクの数、アンカーテキスト+アンカーテキストの使用回数をエクスポートしました。もちろん、データを取得できるため、より多くの次元でデータを分析できます。このスクリプトは、上記の3つの側面のみを分析します。他のニーズがある場合は、自分で拡張できます。 コードと手順は以下に掲載されています。 スクリプトの最初の関数は次のとおりです。 説明: この関数は主に、Baidu Webmaster Platform 外部リンク ツールで照会された Web サイトの外部リンクのすべてのデータを取得し、all_data リストに書き込みます。 #コーディング=utf-8 import json#jsonモジュールを呼び出す import urllib.request#urllib.requestモジュールを呼び出す def url_outerlink_anchor(url):#ウェブマスタープラットフォームデータを取得する html1 = urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=1'%url).read().decode('utf-8')#最初の外部リンクリストを開く data1 = json.loads(html1)#json形式に変換 outerlink_num = int(data1['count'])#外部リンクの総数を取得する range_page_num = outerlink_num//100+2#ページあたり100項目を表示、外部リンクの総数 range_page_num_list = range(1,range_page_num)#例えば、計算後、range_page_num=4、range_page_num_list = [1,2,3]となり、各ページには100個の外部リンクが表示されるので、3ページあります。 #上記の計算は主に以下のすべてのデータを取得するためのものです すべてのデータ = [] for i in range_page_num_list:#for ループはデータを抽出し、それを all_data リストに追加します html=urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=%r'%(url,i)).read().decode('utf-8') データ = json.loads(html) urls=[] データ['list']内の項目の場合: urls.append([item['url'],item['outer_url'],item['anchor']])#URL、外部リンク、アンカーテキストを抽出 all_data.extend(URL) は、 return all_data#すべてのデータを返す list all_data スクリプトの 2 番目の関数は次のとおりです。 説明: この機能は主に、Web サイトにリンクされているすべてのページとリンク回数を取得し、csv ファイルに書き込みます。 def every_page_num(url):#各ページがリンクされている回数を取得します all_data = url_outerlink_anchor(url)#すべてのデータ url_list = [] for item in all_data:#ページデータを取得してurl_listに追加します url_list.append(項目[0]) quchong_url_list = {}.fromkeys(url_list).keys()#重複するページデータを削除する file = open('%s_every_page_num.csv'%url,'a+')#csvファイルを作成して開く quchong_url_list 内のアイテム: file.write(item+','+str(url_list.count(item))+'\n')#ページが接続された回数を書き込みます ファイルを閉じる() Trueを返す この関数で取得したデータを組み合わせて円グラフ効果を作成します。 上記のデータに基づいて、Web サイトのその後のリンク構築の計画を立てることができます。 スクリプトの 3 番目の関数は次のとおりです。 説明: この関数は主に、すべての外部リンク ルート ドメインを取得し、ルート ドメインの下の Web サイトを指すリンクの数をカウントして、csv ファイルに書き込みます。 def outer_url_num(url):#外部リンクのルートドメインと各ドメイン名のリンク数を取得します all_data = url_outerlink_anchor(url)#すべてのデータ 外側のURLリスト = [] for item in all_data:#外部リンクデータを取得し、outer_url_listに追加します 外側のURLリストに追加(項目[1]) げんゆう = [] for link in outer_url_list:#外部リンクのルートドメインを取得し、genyuに追加します genyu.append(link[:link.index('/')]) qu_chong_genyu = {}.fromkeys(genyu).keys()#次の統計についてgenyuのデータを推測します file = open('%s_outer_url_num.csv'%url,'a+')#csvファイルを作成して開く for item in qu_chong_genyu:#各ルートドメインのリンク数をカウントし、ファイルに書き込みます file.write(item+','+str(genyu.count(item))+'\n') ファイルを閉じる() Trueを返す この関数で取得したデータを組み合わせて円グラフ効果を作成します。 上記のデータを組み合わせることで、外部リンクの幅とソースドメインの数のバランスをとることができます。 スクリプトの 4 番目の関数は次のとおりです。 説明: この関数は主にすべてのアンカー ワードを取得し、アンカー ワード リンクの数をカウントして csv ファイルに書き込みます。 def アンカー番号(url): all_data = url_outerlink_anchor(url) アンカーリスト = [] all_data内のアイテムの場合: アンカーリストに追加(項目[2]) quchong_anchor_list = {}.fromkeys(anchor_list).keys() ファイル = open('%s_anchor_num.csv'%url,'a+') quchong_anchor_list 内の項目: file.write(item+','+str(anchor_list.count(item))+'\n') ファイルを閉じる() Trueを返す この関数で取得したデータを組み合わせて円グラフ効果を作成します。 上記のデータを組み合わせることで、主にウェブサイトのアンカーテキストの構築を計画することができます。もちろん、データを分析し続け、各ページのアンカーテキストをカウントすれば、サイト全体のリンクプランを立てることができます。 以下が実行関数です。url='http://www.****.com/' の http://www.****.com/ を自分のウェブサイトに変更するだけです。 __name__ == '__main__' の場合: url='http://www.***.com/' url_outerlink_anchor(url)#データを取得するために最初の関数を実行します every_page_num(url)#2番目の関数を実行する outer_url_num(url)#3番目の関数を実行する アンカー番号(url)#4番目の関数を実行する 上記がこのスクリプトの内容のすべてです。もちろん、最初の関数を通じてデータを取得した後、多次元分析を自由に実行できます。上記は主な3つを簡単に紹介しただけであり、必要に応じて拡張することもできます。 この記事は、Poor Abrasive Station (Emery Sand http://www.moliao88.com/) を宣伝するために Lao Jiang によって書かれました。他の人の労働の成果を尊重し、転載する際には出典を明記してください。 原題: Baidu ウェブマスター プラットフォームの外部リンク データ分析を取得するための Python3 スクリプト キーワード: python、リンク分析 |
<<: Weiphone フォーラムがクラッシュしたのはなぜですか? 国家ラジオ・映画・テレビ総局による禁止令により、新しいドメイン名が正式に開始された。
>>: 宜尚の従業員は報酬計画に不満を持ち、ストライキを起こしたと報じられている。詳細を独占公開
今日、インターネットは急速に発展しており、多くの業界が新たな発展を模索しており、この発展が長期間継続...
[[275294]] 1. Javaヒープスペース頻度: 5 つ星原因Javaヒープにオブジェクトを...
長い間記事を書いていませんでした。最近とても忙しかったです。百度の頻繁な更新は、主要な草の根ウェブマ...
ACアップグレードから1年後、SangforはSASEベースの回答シートを納品しました少し前にIDC...
有能なSEO担当者は、業界に参入した初日から「急がば回れ」という真実を理解する必要があります。ウェブ...
オンラインモデルがオンラインストアの商品の宣伝写真を撮影しています。 (ファイル写真)新華社通信今年...
[編集者注] この記事の著者は@李建忠JZです。著者は、実は中国と海外のインターネットの歴史における...
spinserversは、米国シリコンバレー(サンノゼ)データセンターにHostCat専用の特別価格...
ほぼ毎年、専門家はオープンソース ソフトウェアの時代が到来し、企業が Windows を放棄するだろ...
Alipay 支払いをサポートする別の海外 VPS 販売業者 launchvps.com を見つけま...
検索エンジンのランキングによってもたらされる無限のビジネスチャンスにより、SEO 専門職が誕生しまし...
[51CTO.com からのオリジナル記事] 2019 年、PTC は Onshape を買収し、製...
ウェブサイト診断のヒント2012年1月18日午前10時46分投稿者: Google 中国語検索品質チ...
クラウド コンピューティングは現在、広く使用され、開発されています。クラウドコンピューティングにおけ...
あなたのブログはまだ更新されていますか? Google Readerを開くたびに、更新を続けている有...