1ページで1つのコーパスを意識して適切な検索領域で戦う方法
この記事で分かること
- テキストコーパス(Text Corpus)とは?
- テキストコーパスとSEOの関係性
Googleはこれまで、どんなテーマでも関連情報を迅速に提供する、世界で注目される検索エンジンを作ってきました。
検索エンジンで素晴らしい検索順位を獲得したい場合、検索エンジンに有益な情報(情報利得スコア)を与える戦略を取らなければなりません。
しかし、検索するユーザーにとって本当に満足のいく検索結果を提供しているかどうか、Googleはどのように判断しているのか?
これらが気になる方は多いのではないでしょうか。
被リンクが簡単に操作できるようになった今でも、信頼できる情報源なのでしょうか?
最高のコンテンツを作成したとして、その分野の専門家といえるのでしょうか?
この記事では、検索結果で上位に表示されるためには、「1ページに1つのコーパス」を持つことが非常に重要である理由を解説していきます。
今回紹介する内容は、具体的な施策方法の解説というよりかは、自然言語処理(NLP)や相関性の観点から見た、SEO最適化の概念的なものを説明している記事となっています。
普段馴染みのない方にとっては聞き慣れない言葉が登場しますが、SEOコンテンツを最適化したいと考えている方は、是非最後まで読んでいただければと思います。
テキストコーパス(Text Corpus)とは
テキストコーパスとは、一般的な機械学習プロジェクトにおける「データセット(データの集合体)」のことで、Googleの検索結果ページ(SERP)もテキストコーパスといえます。
しかし、コーパスという言葉は、もともと機械学習の分野よりも前に作られたものであり、文字情報をまとめたものを指すため、より広く使われている言葉になります。
Googleは、アルゴリズムの教育や研究に利用するため、言語情報を集めており、これをテキストコーパスと呼んでいます。
言語学の分野では、テキストコーパスとは、包括的かつ組織的に収集されたテキスト(多くの場合、電子的に保存・処理されたもの)のことです。
コーパス言語学では、統計的な調査やテストを行い、特定の単語の頻度を確認したり、特定の言語圏における言語規則の正しさの確認などに使用されています。
【はじめに】なぜGoogleのアルゴリズムは正しく機能するのか
2023年現在、Google検索は機械学習アルゴリズムを活用し、ユーザーの検索に対して優れた回答を提供することができるようになり、検索結果を適時最適なものに切り替えることが可能です。
Googleは、さまざまなトピックに対してどのように的確な情報を提供しているのかをまず説明していきます。
コンテンツと被リンク
Googleのコアアルゴリズムは、コンテンツと被リンクに基づいて評価を行い、サイトの検索順位を決定しています。
コンテンツの量が多く、被リンクの質が高ければ高いほど、サイトの検索順位は高くなります。
検索結果の1ページ目に表示されるようにするには、このような基本的なランキング要因に注目することが不可欠ですが、その次に来るのは何でしょうか?
ユーザーエンゲージメント
検索結果で1ページ目を確保した後は、コンテンツや被リンクを追加することも有効ですが、最終的に上位表示されるページの順位を決めるのは、ユーザーエンゲージメントの指標です。
検索結果に影響を与えるユーザーエンゲージメント指標には下記のようなものがあります。
- ページの滞在時間
- セッションごとのページビュー数
- 直帰率
- ページスクロールの深さ
- ユニークビジター数
- 再訪問者数
- コンバージョン率
- ソーシャルシェア率
これらのユーザーエンゲージメント指標はすべて、Googleのアルゴリズムに情報をフィードバックし、どのページが最適な情報を提供しているかを判断するのに役立っています。
質の高いページをもとにコーパスを作成
現在、Googleはコンテンツと被リンクという基本的なランキング要素でページを評価し、その結果をユーザーエンゲージメントに基づいて修正するようになりました。
これにより、Googleはあらゆるトピックに対して最適な回答をユーザーに提供しています。
そして、これらの検索結果は、Googleが優れた品質であると判断したコーパスに含まれることになります。
つまり、検索エンジンが上位に表示するページは、アルゴリズムに教育させた高い品質基準をクリアしたページやコンテンツだけということです。
ランクブレイン(Rankbrain)
ランクブレインは、特定のページがどのようにトピックや概念と関連性を持っているかを識別する、機械学習ベースのアルゴリズムです。
これによりGoogleは、検索キーワードが正確でない場合でも、より正確かつ関連性の高い検索結果を返すことができます。
ランクブレインは、最も正確な答えを出すために、相関関係のデータベースや、同等のキーワード間の身近な相関関係のベクトルを必要とします。
ランクブレインは、検索クエリのテキスト内容を「ワード・ベクトル」、別名「分散表現」に変換し、それぞれのベクトルは数学的空間において固有の座標アドレスを持っている。
この空間で互いに近いベクトルは、言語的な類似性に対応する。
Machine learning just got more human with Google’s RankBrain -The Next Web ※記事を一部翻訳
被リンクや内部SEOは、基本的なページ上のSEO評価を改善することができますが、ランクブレインはこれらの要素とは切り離した形で独自のアルゴリズムとして機能しています。
ランクブレインは、私たちが提供したデータセット、つまりWeb上で既に公開されているコンテンツから学習(データセットを蓄積)していきます。
ランクブレインに対して最適化を行うには、次のようなことが必要です。
- 適切なキーワードを活用し、ユーザーの期待に的確に応えることで、ユーザーの満足度を最大限に高める最適なコンテンツを作成する。
- コンテンツの構造は合理的で、ユーザーが納得するような構成、回答を用意する。
- 提供する情報は正確で、既存のコーパスに沿ったものであることを確認する。
GoogleのGary Illyes(ゲイリー・イリェーシュ)氏は、ランクブレインは検索クエリの意図のみを処理することを言及しており、Web上ではまだ多数の異なる検索が行われているため、検索クエリがどのように解析されるかについて、より多くの知識をランクブレインに学習させる必要があると説明しています。
1ページに1つのコーパスを使用する理由
検索結果上位にページを順位付けするために、データを関連付ける重要性は理解していただけたと思います。
ここからは、1ページに1つのコーパスを持つという概念を解説していきます。
Googleにあるキーワードを入力すると、そのページの意図に関連するキーワードをもとに、検索結果の一覧が表示されます。
多くのコンテンツを作成し、それを複数のデータコーパスに含めると、Googleがどのページを順位付けすべきかを正確に判断するのを阻害する要因となってしまいます。
Googleはユーザーに最適な検索結果を出すために、ページが検索クエリに完全に対応しているかどうかを確認する必要があります。
検索結果の表示例
そこで、Googleで次のように検索し、検索結果の一例を確認してみましょう。
- 「クーポンコード」:楽天や出前館、宿泊施設などの割引情報が表示されます。
- 「クーポンコード デザイン」:キーワードに「デザイン」を追加すると、コーパスがデザインのバナー例やデザインテンプレートのページを返します。
- 「クーポンコード ボクシング」:キーワードに「ボクシング」を追加すると、コーパスがボクシング用品を販売するECサイトの一覧を返します。
- 「クーポンコード MMA」:キーワードに「MMA」を追加すると、コーパスがMMA用品を販売するECサイトやイベントの割引情報を返します。
- 「クーポンコード 朝倉未来」:キーワードに「朝倉未来」を追加すると、コーパスが朝倉未来選手がプロモーションを行っているサービスや商品のページを返します。
これらの検索結果は、「クーポンコード」という用語が頻繁に使用されているデータセット(コンテンツ群)を返すという結果になりました。
注目すべき点は、1つのキーワードの有無が、検索結果を大きく変えることがあるというところです。
コンテンツも同様で、複数のコーパスへ入力すると、ページを順位付けする際にGoogleを混乱させる要因になってしまいます。
複数のコーパスへ入力する際のデメリット
もし、数件しか出てこないような非常に珍しい特殊なキーワードを使い始めると、一般的なコーパスの一致から外れてしまう可能性が高まります。
例えば、ページの中のH2見出しが1つでもページの主題と一致していないと、いくら関連する内部や外部リンクでサポートしても、ページが主要なコーパスから完全に離れてしまい、検索エンジンで上位に表示されなくなることがあります。
コンテンツを作成する際には、特定のキーワードに対して、設定された検索結果の範囲内に収まるようにする必要があります。
上位表示を目指すコーパスに含まれていないような、一般的でない特殊なキーワードを使用すると、ページ全体の順位に悪影響を及ぼす可能性があります。
1ページに1つのコーパスを利用する際の基本的な考え方
適切な検索結果で競争する
まずはじめに、ユーザーの検索意図によっては上位表示が難しい検索結果(コーパス)が存在します。
適切なコーパスをターゲットにすることは、SEO対策を行う上で非常に重要で、せっかく多くの被リンク獲得や素晴らしいコンテンツを作っても、コーパスの選択自体が間違っていると、それらのキーワードでページを上位表示することは難しくなります。
Googleのランクブレインは、コーパスに含まれたページが検索意図と一致しているかどうかをユーザーのエンゲージメント指標で評価を行います。
Googleに上位表示されるためには、まずランクブレインが行なうコンテンツ分析で一定の基準をクリアする必要があります。
つまりキーワードに対して、コンテンツの内容が様々なユーザーの検索意図と合致し、高いエンゲージメントを発揮する必要があります。
ページの顕著性を向上させる
ページを正しいコーパスに分類させるためには、アルゴリズムにページのトピックやテーマを正しく認識させることが重要になります。
顕著性のスコア(Salience Scores)は、ページコンテンツ全体に含まれる単語、キーワードがコンテンツコーパスにどの程度含まれているかを示すものです。
顕著性スコアは、コンテンツや記事全体に対するそのエンティティの重要性や中心性を示す実際のランキングスコアです。
顕著性スコアは、 0 から 1 の範囲でスコアが割り当てられます。
Understanding Salience For Better Keyword Classification – Dan Taylor ※記事を一部翻訳
顕著性スコアに従って最も重要なキーワードをコーパスに配置すると、ターゲットとなる検索結果に自身のコンテンツを表示させることが可能になります。
SEOと顕著性の関連性について初めて聞いたという方は、下記の記事で詳しく解説していますので是非読んでみてください。
重要指標キーワードを多く含める
テキストコーパスの中から重要な指標となる単語やフレーズを含めることは、コンテンツ最適化において非常に大事なテクニックです。
著者が多くのテスト行った結果、上位表示を目指すコーパス領域の最も中心点に近い、重要な指標キーワードを多く含める必要があると考えています。
具体的には下記のようなキーワードを含めることになります。
- エンティティを含める
- コーパスの中心点に近いキーワードを含める
- 顕著性スコアの高いキーワードを含める
- 最も一般的なキーワード、フレーズを含める
N-Gramはコーパスの重要な要素
ページ上にキーワードを多く含めるのは古くから使われているSEO手法ですが、GoogleはWord2Vecだけでなく、現在はさらに技術が発展しています。
ここで登場するのがN-Gramという、任意の文字数で文章を分割する手法です。
N-Gramは、連続するn個の単語や文字のまとまりを表すことができます。
あらゆるコーパスにおいて、フレーズ(データセット中に頻出する単語の並び)は重要な要素となっています。
これらの単語の並びは、2-gram、3-gram、4-gramのフレーズを作り、コーパスセットの中でコンテンツに入り込むための重要な指標を形成します。
自然言語処理(NLP)は、N-gramの出現確率、つまりある単語が一連の単語の中で次に出現する確率を割り当てており、これらのN-gramを持つことが、SEOに最適化されたコンテンツの重要な要素となっています。
N-Gramがコーパスにおいて重要な要素である理由は下記になります。
- どのN-gramのグループを組み合わせて一つの単語を作るかを決めるのに有効(例えば、「東京 駅」を一つの単語「東京駅」としてまとめたりする)。
- 単語の前後を予測するのにも役立ちます。例えば、「を提出してください」という部分文があるとします。すると、前の単語は「学校」や「授業」よりも「テスト」「課題」「論文」である可能性が高くなります。
- 誤字の訂正にも役立ちます。例えば、「ビックカメラ」という単語は、「ビック」の後に「カメラ」が出現する確率が高く、さらに「ビック」と「ビッグ」の文字の重なりが多いとわかれば、「ビックカメラ」に修正することができます。
このように、単語の組み合わせや出現の確率を設定することは、コーパスの精度を高めることや、自然言語処理の発展において大きな可能性を持っており、今後もGoogleで利用されていくであろう手法といえます。
参考記事
今回の記事を作成する際に参考にした記事のリストになります。
※すべて海外の記事になりますので、英語が苦手な方は自動翻訳などを使用してご覧ください。
- コンテンツのギャップ分析に最適なワードベクターツール
- Google Brainのワードベクターアプローチを支える引用文献
- SEOの秘密を解き明かす。すべてはGoogle検索のためのセマンティック。
- ワードベクターの活用とSEOへの応用
- ワードベクターSEOガイドへようこそ!
- キーワード抽出
- SEO、コンテンツ、カスタマーインサイトのためにSERPsを分析する方法
- 自然言語処理による高度なSEO対策
これらの記事は、相関関係、ワードベクター、コーパスSEO、検索結果(SERP)の分析について詳しく解説されています。
少しマニアックな記事にはなりますが、SEOオタクの方には是非一読して欲しい記事です。
最後に
まだ試行回数が十分とは言えませんが、今回紹介した、不足している重要指標キーワードを見つけ、ページ上にそれらのキーワードを追加したときに、検索順位の大きな向上を確認できました。
※しかし、同じページに2回目、3回目とキーワードを追加したところ、ほとんど効果はありませんでしたので、ブラックハットのような即効性のある施策ではないようです。
このような重要な指標となるキーワードをページに追加することは、検索順位に良い成果をもたらしますが、逆にコーパス外のキーワードを追加すると、検索エンジンが混乱し、ページ全体が1ページ目に表示されなくなる可能性が高まります。
ページやコンテンツを最適化する前に、必ずキーワードの検索結果を分析し、1つのページは1つのコーパスに収まる必要性があることを忘れないようにすることをおすすめいたします。
今回紹介した内容は、機械学習や自然言語処理に精通したエンジニアの力を借りることが必須になると思いますが、自身のサイトへうまく導入すると、素晴らしいSEO成果を生み出すことができますので、リソースがある方はぜひ一度お試しください。
最後にこの記事が参考になった、あるいはご質問などがある方は、ぜひコメント欄でお聞かせください。
コメント