Baidu ウェブマスター プラットフォームの外部リンク データ分析を取得するための Python3 スクリプト

Baidu ウェブマスター プラットフォームの外部リンク データ分析を取得するための Python3 スクリプト

Baiduウェブマスターツールの外部リンクツールで照会された外部リンクデータを分析するために、Pythonスクリプトを書きました。ウェブマスタープラットフォームから直接データを取得することで、分析用のすべてのデータを保存し、サイト上のリンクされたページ+回数、外部リンクのルートドメイン+ドメイン名の下のリンクの数、アンカーテキスト+アンカーテキストの使用回数をエクスポートしました。もちろん、データを取得できるため、より多くの次元でデータを分析できます。このスクリプトは、上記の3つの側面のみを分析します。他のニーズがある場合は、自分で拡張できます。

コードと手順は以下に掲載されています。

スクリプトの最初の関数は次のとおりです。

説明: この関数は主に、Baidu Webmaster Platform 外部リンク ツールで照会された Web サイトの外部リンクのすべてのデータを取得し、all_data リストに書き込みます。

#コーディング=utf-8

import json#jsonモジュールを呼び出す

import urllib.request#urllib.requestモジュールを呼び出す

def url_outerlink_anchor(url):#ウェブマスタープラットフォームデータを取得する

html1 = urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=1'%url).read().decode('utf-8')#最初の外部リンクリストを開く

data1 = json.loads(html1)#json形式に変換

outerlink_num = int(data1['count'])#外部リンクの総数を取得する

range_page_num = outerlink_num//100+2#ページあたり100項目を表示、外部リンクの総数

range_page_num_list = range(1,range_page_num)#例えば、計算後、range_page_num=4、range_page_num_list = [1,2,3]となり、各ページには100個の外部リンクが表示されるので、3ページあります。

#上記の計算は主に以下のすべてのデータを取得するためのものです

すべてのデータ = []

for i in range_page_num_list:#for ループはデータを抽出し、それを all_data リストに追加します

html=urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=%r'%(url,i)).read().decode('utf-8')

データ = json.loads(html)

urls=[]

データ['list']内の項目の場合:

urls.append([item['url'],item['outer_url'],item['anchor']])#URL、外部リンク、アンカーテキストを抽出

all_data.extend(URL) は、

return all_data#すべてのデータを返す list all_data

スクリプトの 2 番目の関数は次のとおりです。

説明: この機能は主に、Web サイトにリンクされているすべてのページとリンク回数を取得し、csv ファイルに書き込みます。

def every_page_num(url):#各ページがリンクされている回数を取得します

all_data = url_outerlink_anchor(url)#すべてのデータ

url_list = []

for item in all_data:#ページデータを取得してurl_listに追加します

url_list.append(項目[0])

quchong_url_list = {}.fromkeys(url_list).keys()#重複するページデータを削除する

file = open('%s_every_page_num.csv'%url,'a+')#csvファイルを作成して開く

quchong_url_list 内のアイテム:

file.write(item+','+str(url_list.count(item))+'\n')#ページが接続された回数を書き込みます

ファイルを閉じる()

Trueを返す

この関数で取得したデータを組み合わせて円グラフ効果を作成します。

上記のデータに基づいて、Web サイトのその後のリンク構築の計画を立てることができます。

スクリプトの 3 番目の関数は次のとおりです。

説明: この関数は主に、すべての外部リンク ルート ドメインを取得し、ルート ドメインの下の Web サイトを指すリンクの数をカウントして、csv ファイルに書き込みます。

def outer_url_num(url):#外部リンクのルートドメインと各ドメイン名のリンク数を取得します

all_data = url_outerlink_anchor(url)#すべてのデータ

外側のURLリスト = []

for item in all_data:#外部リンクデータを取得し、outer_url_listに追加します

外側のURLリストに追加(項目[1])

げんゆう = []

for link in outer_url_list:#外部リンクのルートドメインを取得し、genyuに追加します

genyu.append(link[:link.index('/')])

qu_chong_genyu = {}.fromkeys(genyu).keys()#次の統計についてgenyuのデータを推測します

file = open('%s_outer_url_num.csv'%url,'a+')#csvファイルを作成して開く

for item in qu_chong_genyu:#各ルートドメインのリンク数をカウントし、ファイルに書き込みます

file.write(item+','+str(genyu.count(item))+'\n')

ファイルを閉じる()

Trueを返す

この関数で取得したデータを組み合わせて円グラフ効果を作成します。

上記のデータを組み合わせることで、外部リンクの幅とソースドメインの数のバランスをとることができます。

スクリプトの 4 番目の関数は次のとおりです。

説明: この関数は主にすべてのアンカー ワードを取得し、アンカー ワード リンクの数をカウントして csv ファイルに書き込みます。

def アンカー番号(url):

all_data = url_outerlink_anchor(url)

アンカーリスト = []

all_data内のアイテムの場合:

アンカーリストに追加(項目[2])

quchong_anchor_list = {}.fromkeys(anchor_list).keys()

ファイル = open('%s_anchor_num.csv'%url,'a+')

quchong_anchor_list 内の項目:

file.write(item+','+str(anchor_list.count(item))+'\n')

ファイルを閉じる()

Trueを返す

この関数で取得したデータを組み合わせて円グラフ効果を作成します。

上記のデータを組み合わせることで、主にウェブサイトのアンカーテキストの構築を計画することができます。もちろん、データを分析し続け、各ページのアンカーテキストをカウントすれば、サイト全体のリンクプランを立てることができます。

以下が実行関数です。url='http://www.****.com/' の http://www.****.com/ を自分のウェブサイトに変更するだけです。

__name__ == '__main__' の場合:

url='http://www.***.com/'

url_outerlink_anchor(url)#データを取得するために最初の関数を実行します

every_page_num(url)#2番目の関数を実行する

outer_url_num(url)#3番目の関数を実行する

アンカー番号(url)#4番目の関数を実行する

上記がこのスクリプトの内容のすべてです。もちろん、最初の関数を通じてデータを取得した後、多次元分析を自由に実行できます。上記は主な3つを簡単に紹介しただけであり、必要に応じて拡張することもできます。

この記事は、Poor Abrasive Station (Emery Sand http://www.moliao88.com/) を宣伝するために Lao Jiang によって書かれました。他の人の労働の成果を尊重し、転載する際には出典を明記してください。


原題: Baidu ウェブマスター プラットフォームの外部リンク データ分析を取得するための Python3 スクリプト

キーワード: python、リンク分析

<<:  Weiphone フォーラムがクラッシュしたのはなぜですか? 国家ラジオ・映画・テレビ総局による禁止令により、新しいドメイン名が正式に開始された。

>>:  宜尚の従業員は報酬計画に不満を持ち、ストライキを起こしたと報じられている。詳細を独占公開

推薦する

クラウド環境における Java の水平拡張と負荷分散戦略

クラウド コンピューティング テクノロジーの急速な発展により、ますます多くのアプリケーションがクラウ...

「馬鋼社」をリソースとして、中国のSEOはサスペンスを恐れない

昼食後、同僚は全員出かけました。私はオフィスで一人、ホットなニュースを読んでいました。「馬鋼舎」を使...

オンラインポップアップ広告の厳しい規制に関する規則が年内に発行される可能性

ウェブページ、ビデオ、ゲーム上の迷惑なポップアップ広告がまもなく抑制されます。最近、中国広告協会イン...

#Cyber​​Monday# pacificrack: $13.95/年、KVM/512M メモリ/20g SSD/500G 帯域幅

Pacificrack は、サイバー マンデー特別プロモーション VPS を年間わずか 13.95 ...

4大製品マトリックスレイアウト企業ライブ放送Weiboは、企業ライブ放送マーケティングエコシステムを構築する予定です

ライブストリーミングは、その高いリアルタイム性とインタラクティブ性により、その誕生以来、非常に高いマ...

ケーススタディ: 企業ウェブサイトのコンバージョンコストを削減する方法

企業の百度プロモーションが一定規模に達すると、すべての企業が共通の目標を持つようになります。それは、...

友好的なリンクを交換する際に注意すべき4つのポイント

ウェブサイトの最適化に携わる専門家は、ウェブサイトのランキングを決定する 3 つの要素は、フレンドリ...

IBM のハイブリッド クラウド プラットフォーム: 企業にとっての価値が 2.5 倍に跳ね上がるのはなぜでしょうか?

[[354831]] 「IBM中国開発センターでは、同僚たちと私はIBMハイブリッドクラウドプラット...

検索結果で上位にランクインする方法

世界最高のギターのウェブサイトをデザインしている自分を想像してみてください。このサイトには、さまざま...

ハロウィン: reprisehosting-30 USD サーバー/シアトル/L5640/16g メモリ/50M 無制限

reprisehosting.com のシアトル データ センターのサーバーでは、ハロウィーンに合わ...

Windows 仮想マシンを一括でチェックおよび修復する方法

01 - システム概要当社には、社内アプリケーションとテスト システムをホストする小規模なプライベー...

成外全が双十一における小紅書の宣伝と運営の「ルーチン」を明かす

月収10万元の起業の夢を実現するミニプログラム起業支援プラン2018年双十一は電子商取引マーケティン...

残念ながら、パブリッククラウド戦争はAWSとMicrosoft Azureの覇権争いで終わりを迎えた。

[51CTO.com クイック翻訳] 最近、クラウドコンピューティング市場の収益レポートに注目してい...

WeChatマーケティング3.0時代の到来:WeChatオペレーションの台頭

WeChatマーケティングの今後の動向はますます明確になっているこれは20日にモーメントでのマーケテ...

企業が直面するハイブリッドクラウドのセキュリティ上の 5 つの課題

クラウド サービスの利用は過去 2 年間で大幅に増加しており、この傾向は衰える兆しがありません。調査...