Web ページの構造化プロセスは、貴重な情報を保持するプロセスです。

Web ページの構造化プロセスは、貴重な情報を保持するプロセスです。

ウェブページ構造化の目的を紹介しました。構造化のプロセスは、ウェブサイトに貴重な情報を保持するプロセスです。今日、このようなタイトルで記事を書いたのは、実は目的があるからです。ウェブサイトの SEO 最適化担当者に、検索エンジンの動作原理がウェブサイトの最適化をうまく行うための基礎であることを改めて思い出してもらいたいのです。

今では、以前とは異なり、ウェブサイトの最適化や SEO の最適化について話すとき、タイトル、説明、キーワードを変更し、外部リンクを追加するだけで、ウェブページのランキングが向上します。しかし、今ではこれだけに頼るのはもはや効果的ではありません。誰もが知っているものを強みとして利用していると、実は時代遅れになります。さらに、ブラックハットSEO最適化が横行し、BaiduやGoogle向けの最適化が次々と登場し、検索エンジンもアルゴリズムを絶えず調整しています。 SEO 最適化の先駆者になるには、常に冷静な思考を保ち、インターネットの発展と変化に合わせて新しい知識を吸収する必要があります。こうすることでのみ、ウェブサイトの最適化効果をコントロールできます。

話題に戻って、Web ページの構造化のプロセスは貴重な情報を保持するプロセスであることを簡単に説明しましょう。 Web ページ構造化の目的を理解した後は、タイトル、アンカー テキスト、コンテンツ タイトル、コンテンツ、転送リンクという、Web ページ自体の価値と内容を反映する 5 つの属性が抽出されることを理解する必要があります。検索エンジンにとって、これら 5 つの属性は貴重な情報です (もちろん、ユーザーにとっても貴重なコンテンツです)。

Web ページの構造化がどのように行われるかを詳しく見てみましょう。

ウェブページ構造化のプロセスでは、まずタグツリーを分析してテキストに対応するタグを取得し、次に投票アルゴリズムを使用して、HTML タグだけでは判断できないテキストやイラストなどのウェブページデータを決定します。専門家がまとめた 2 つのステップは次のとおりです。

HTML タグツリー

1. HTML タグ ツリー (tag-tree) を作成します。

World Wide Web 上の静的 Web ページのほとんどは、HTML ページの形式で存在します。HTML は、HTML 構文に従ってタグ内に記述するすべてのコンテンツを保存するマークアップ言語です。ウェブページコンテンツの構成構造をより明確に記述するために、ウェブページ内のタグを出現順に並べ替え、適切な構造で記録します。タグ間のネスト関係により、ソート結果は当然ツリー構造になります。Web ページ内のタグをソートして得られるツリー構造を、Web ページの「タグ ツリー」と呼びます。

明らかに、このページを閲覧しているユーザーには、かなり親切なメッセージが表示されていることがわかります。ただし、実際のソース ファイル内の や (IE ブラウザーが Web ページを理解するのに役立つと理解できます) などの HTML タグは、実際にはユーザーには表示されません。したがって、検索エンジンの分析システムは、Web ページを理解するために IE ブラウザが Web ページを理解する方法を学習する必要があり、理解の過程で HTML タグ ツリーのツリー構造を確立する必要があります。タグ ツリーを確立し、タグによって記述されたテキストを識別することにより、Web ページの構造化プロセスは重要なステップを踏み、Web ページのタイトルを正常に抽出できるようになります。しかし、実際のウェブページでは、同じタグで記述されるテキストコンテンツは一意ではありません。たとえば、タグ内に広告コンテンツも配置されている場合があり、これは実際のテキストではなく、ユーザーの検索エクスペリエンスに影響を与えます。そのため、次の投票方法を使用してテキストを取得します。

次に、投票を通じて本文のテキストブロックを識別し、深さ優先のトラバーサルルールに従って本文に整理します。

どのテキストブロックがメインテキストであるかを決定するために使用される方法は「投票アルゴリズム」と呼ばれ、特に検索エンジンで一般的です。日常生活において、幹部の選出や決議の可決など投票を必要とするものや、スポーツ選手の動作を審判が採点するものなど、投票や選挙を経験した人はほぼ全員います。基本的な原則は、多数派の意見が正しいことが多いということです。大多数の統一された主観的な意見はより客観的なものとなるでしょう。各人のスコアは主観的ですが、評価方法と結果は比較的客観的で信頼できるものと考えられます。テキスト抽出のための投票アルゴリズムのプロセスとはどのようなものですか? まず、検索エンジンは一連のルールを定義し、次にこれらのルールを使用して各テキスト ブロックにスコアを付けます。最高スコアは、本文に十分である可能性が高いとみなされ、受け入れられます。検索エンジンが設定するルールでは、公正かつ客観的なスコアを取得する前に、十分な数の Web ページからのフィードバックも必要になります。 HTML タグのネストされた性質により、深さ優先のトラバーサル順序を完全なテキストに整理できます。

(出典:www.zhangxundf.cn)


元のタイトル: ウェブページ構造化のプロセスは、貴重な情報を保持するプロセスです

キーワード: ウェブページ構造の最適化

<<:  ウェブサイトのキーワードランキングを安定させる方法

>>:  ウェブサイトの内部リンク技術を使用してウェブサイトの権威を迅速に向上させる方法

推薦する

K8S の混乱から熟練へ: この記事を読めば、クラスター ノードがオフラインになることはなくなります。

はじめに: まったく未知の問題や未知のシステム コンポーネントのトラブルシューティングは、多くのエン...

virmach - ブラックフライデーのプロモーション、リアルタイムで更新され、いつでも変更されます

virmach.com のブラックフライデーからサイバーマンデーまでの特別セールを更新しました。上部...

クラウドネイティブの不変インフラストラクチャ

著者: Yu Leichun、PaaS 製品部門、中国モバイル クラウド機能センター前回の記事では、...

動画プロモーションを行う際に注意すべき3つのポイント

インターネットビデオサイトの継続的な発展により。インターネット ビデオの力は、今やテレビ メディアに...

百度アライアンスが監査に失敗した理由の分析例

今日、グループで誰かが質問しているのを見ました。なぜ 2 つの Baidu Alliance に申し...

左にウェブサイト構築、右に顧客のニーズ

これは顧客とビジネスの問題です。上司が営業マンを叱責する記事を読んだのを覚えています。それは単に、私...

一体化の流れの中で、実体経済と技術革新はどのように「モデルの再構築」を行うことができるのでしょうか?

ハイアールは「人間本位」のモデルとメーカープラットフォームを積極的に推進し、伝統的な企業がイノベーシ...

国務院が中小企業を免税とする新政策を打ち出したのは誤解だ。タオバオのオンラインストアは税金の支払いを逃れるのが難しくなるかもしれない。

「新たな免税政策」は、電子商取引プラットフォーム上の小規模販売業者に「戦いに勝つ」希望を与えたようだ...

素人の目から見て、オンライン採用は投資する価値があるのでしょうか?

卒業シーズンが近づいており、当社は最近採用活動に忙しくしています。当社はさまざまな方法で採用活動を行...

ワークロードに合わせてクラウド管理をカスタマイズ

これまで以上に、リソースをクラウドに移行する組織は特定の機能を求めています。クラウド コンピューティ...

地域不動産ウェブサイトの成功に必要な条件の簡単な分析

ローカルウェブサイトは、宣伝しやすく、比較的集中した視聴者を持ち、比較的操作しやすいため、多くの草の...

インフォグラフィック: 新技術の不適切な使用による 5 つのマーケティングの失敗

Weibo、WeChat、QR コード、AR など、新しいテクノロジーや新しいプラットフォームが次々...

訪問者体験の​​指針: 訪問者を「初心者」として扱うように努める

サイト設計の基本原則は、優れた訪問者エクスペリエンス、つまり訪問者中心の設計であることはわかっていま...

#1P トラフィック サーバー: 100tb-10g ポート/1P トラフィック/ソルトレイク シティ/ニューヨーク/ロンドン

毎月のトラフィック量が多すぎて、トラフィックを分散するために複数のサーバーを購入するのに多額の費用が...

Baiduのウェブサイトについて話すと、コレクションは良いが、キーワードのランキングは下がっている

最近、多くの初心者ウェブマスターの友人からいつも次のような質問を受けます。「私たちのウェブサイトは ...