Web ページの構造化プロセスは、貴重な情報を保持するプロセスです。

Web ページの構造化プロセスは、貴重な情報を保持するプロセスです。

ウェブページ構造化の目的を紹介しました。構造化のプロセスは、ウェブサイトに貴重な情報を保持するプロセスです。今日、このようなタイトルで記事を書いたのは、実は目的があるからです。ウェブサイトの SEO 最適化担当者に、検索エンジンの動作原理がウェブサイトの最適化をうまく行うための基礎であることを改めて思い出してもらいたいのです。

今では、以前とは異なり、ウェブサイトの最適化や SEO の最適化について話すとき、タイトル、説明、キーワードを変更し、外部リンクを追加するだけで、ウェブページのランキングが向上します。しかし、今ではこれだけに頼るのはもはや効果的ではありません。誰もが知っているものを強みとして利用していると、実は時代遅れになります。さらに、ブラックハットSEO最適化が横行し、BaiduやGoogle向けの最適化が次々と登場し、検索エンジンもアルゴリズムを絶えず調整しています。 SEO 最適化の先駆者になるには、常に冷静な思考を保ち、インターネットの発展と変化に合わせて新しい知識を吸収する必要があります。こうすることでのみ、ウェブサイトの最適化効果をコントロールできます。

話題に戻って、Web ページの構造化のプロセスは貴重な情報を保持するプロセスであることを簡単に説明しましょう。 Web ページ構造化の目的を理解した後は、タイトル、アンカー テキスト、コンテンツ タイトル、コンテンツ、転送リンクという、Web ページ自体の価値と内容を反映する 5 つの属性が抽出されることを理解する必要があります。検索エンジンにとって、これら 5 つの属性は貴重な情報です (もちろん、ユーザーにとっても貴重なコンテンツです)。

Web ページの構造化がどのように行われるかを詳しく見てみましょう。

ウェブページ構造化のプロセスでは、まずタグツリーを分析してテキストに対応するタグを取得し、次に投票アルゴリズムを使用して、HTML タグだけでは判断できないテキストやイラストなどのウェブページデータを決定します。専門家がまとめた 2 つのステップは次のとおりです。

HTML タグツリー

1. HTML タグ ツリー (tag-tree) を作成します。

World Wide Web 上の静的 Web ページのほとんどは、HTML ページの形式で存在します。HTML は、HTML 構文に従ってタグ内に記述するすべてのコンテンツを保存するマークアップ言語です。ウェブページコンテンツの構成構造をより明確に記述するために、ウェブページ内のタグを出現順に並べ替え、適切な構造で記録します。タグ間のネスト関係により、ソート結果は当然ツリー構造になります。Web ページ内のタグをソートして得られるツリー構造を、Web ページの「タグ ツリー」と呼びます。

明らかに、このページを閲覧しているユーザーには、かなり親切なメッセージが表示されていることがわかります。ただし、実際のソース ファイル内の や (IE ブラウザーが Web ページを理解するのに役立つと理解できます) などの HTML タグは、実際にはユーザーには表示されません。したがって、検索エンジンの分析システムは、Web ページを理解するために IE ブラウザが Web ページを理解する方法を学習する必要があり、理解の過程で HTML タグ ツリーのツリー構造を確立する必要があります。タグ ツリーを確立し、タグによって記述されたテキストを識別することにより、Web ページの構造化プロセスは重要なステップを踏み、Web ページのタイトルを正常に抽出できるようになります。しかし、実際のウェブページでは、同じタグで記述されるテキストコンテンツは一意ではありません。たとえば、タグ内に広告コンテンツも配置されている場合があり、これは実際のテキストではなく、ユーザーの検索エクスペリエンスに影響を与えます。そのため、次の投票方法を使用してテキストを取得します。

次に、投票を通じて本文のテキストブロックを識別し、深さ優先のトラバーサルルールに従って本文に整理します。

どのテキストブロックがメインテキストであるかを決定するために使用される方法は「投票アルゴリズム」と呼ばれ、特に検索エンジンで一般的です。日常生活において、幹部の選出や決議の可決など投票を必要とするものや、スポーツ選手の動作を審判が採点するものなど、投票や選挙を経験した人はほぼ全員います。基本的な原則は、多数派の意見が正しいことが多いということです。大多数の統一された主観的な意見はより客観的なものとなるでしょう。各人のスコアは主観的ですが、評価方法と結果は比較的客観的で信頼できるものと考えられます。テキスト抽出のための投票アルゴリズムのプロセスとはどのようなものですか? まず、検索エンジンは一連のルールを定義し、次にこれらのルールを使用して各テキスト ブロックにスコアを付けます。最高スコアは、本文に十分である可能性が高いとみなされ、受け入れられます。検索エンジンが設定するルールでは、公正かつ客観的なスコアを取得する前に、十分な数の Web ページからのフィードバックも必要になります。 HTML タグのネストされた性質により、深さ優先のトラバーサル順序を完全なテキストに整理できます。

(出典:www.zhangxundf.cn)


元のタイトル: ウェブページ構造化のプロセスは、貴重な情報を保持するプロセスです

キーワード: ウェブページ構造の最適化

<<:  ウェブサイトのキーワードランキングを安定させる方法

>>:  ウェブサイトの内部リンク技術を使用してウェブサイトの権威を迅速に向上させる方法

推薦する

SEMマーケティングにおけるキーワードの適切な組み合わせ

SEM マーケティングの効果は、配置されたキーワードの品質に大きく依存します。検索するキーワードが違...

Kubernetesは常に正しい選択ではない

著者: ラク・シヴァ編集:ノエ現在では、ほぼすべてのアプリケーションをコンテナにパッケージ化して実行...

Bステーション財務報告:損失の背景には交通事業

一年を振り返ってみると、ビリビリのラベルは常に「輪を破る」ものでした。年初の年越しガラからその後の「...

サイトのスナップショットが追いつかない4つの理由について簡単に説明します。

ウェブマスターが困惑し、無力感を感じることが多いのは、サイトのスナップショットが遅れていて、追いつけ...

簡単な分析:ウェブサイトのトラフィックの減少に影響を与える18の理由!

月給5,000~50,000のこれらのプロジェクトはあなたの将来ですウェブサイトのトラフィックは常に...

Renren Videoは閉鎖の噂に対して次のように反応した。ウェブサイトは更新中で、後日オンラインになる予定だ。

さらに読む: Renren Videoが再びダウン、同じタイプのウェブサイトへのアクセスは正常Ren...

Googleが検索戦略をアップグレード、SEOに依存するアグリゲーションサイトは戦略を変える必要がある

編集者注: Google に質問やクエリを入力すると、以前は Google は回答を得るために推奨さ...

QQ、Weibo、Momoの社会的運命

1994年、中国本土初のインターネットBBS「曙光ステーション」がオンラインになりました。その後、水...

2018 年のクラウド コンピューティング開発トレンドに関する 4 つの予測

クラウド コンピューティング市場の発展について話すとき。 2018 年のクラウド コンピューティング...

クラウドコンピューティングの価格設定をより透明化する方法

2000 年以降、クラウド コンピューティングの出現により、従来のソフトウェア ベンダーは電信事業者...

中国のクラウド コンピューティング市場における競争の調査: 価格が最優先か、それともエコシステムが鍵か?

デジタル経済の時代において、クラウドコンピューティングのインフラストラクチャ機能はますます重要になっ...

簡単な分析: インターネットマーケティングについて理解していること

インターネットの誕生以来、ブログマーケティング、フォーラムマーケティング、電子メールマーケティング、...

ガートナーは、メタバース、インダストリークラウドプラットフォームなどを含む、2023 年のトップ 10 の戦略的テクノロジートレンドを発表しました。

最近、ガートナーは、企業が 2023 年に検討する必要がある戦略的テクノロジー トレンドのトップ 1...