エンティティとは?SEOへの影響と顕著性スコアについて
この記事で分かること
- エンティティと顕著性について
- エンティティの顕著性とSEOの関係性
- 顕著性スコアを上げる方法
SEOの業界でエンティティという言葉が広まったきっかけは、2012年5月にGoogleがナレッジパネル(ナレッジグラフ)機能をリリースしたと同時に公開された、Google公式ブログの投稿内容によるものです。
この投稿では、Googleの検索エンジンが単純なキーワード検出アルゴリズムではなく、物事や概念を理解可能なレベルまで進化していることを説明しています。
この記事では、エンティティと顕著性について、そしてそれらをSEOに上手く落とし込む方法を解説していきます。
Googleと自然言語処理(NLP)
エンティティのことを解説する前に、まずはGoogleの自然言語処理(NLP)が何をしているかを理解することが重要です。
自然言語処理とは、人工知能によって実行されるテキストを理解するプロセスです。
Googleやその他の検索エンジンは、自然言語処理を使用して、Webページ上のテキスト、コンテンツの全体的な意味を判断しています。
SEOに関わる人々にとって最も興味深い点は、Googleの自然言語処理がページ内のテキストをどのように解析し、実際の人間が何を重要と判断しているのかを想定することだと思います。
ですので本来、自然言語処理には多数の潜在的な用途がありますが、この記事で網羅的な解説はしません。
最低限押さえておくべきポイントだけを解説していきます。
GoogleのBERTアルゴリズム
Googleは、2019年に自然言語処理(NLP)事前トレーニングに使用されるニューラルネットワークベースの手法である、BERT(バート)と略されるTransformersからの双方向エンコーダー表現を検索エンジンに導入しました。
このBERTは、1つずつ単語を処理するのではなく、文内の全ての単語と関連付けて処理することができます。
それによって、BERTモデルは、単語の周囲にある他の単語を見て、単語の完全な文脈や前後関係を考慮することができます。
BERTアップデートの改善により、テキストの文脈や検索クエリの背後にある意図をより理解することが可能になり、検索結果の精度が以前よりも向上しました。
BERTモデルを検索のランキングと強調スニペットの両方に適用することで、有益な情報を見つけやすくするための機能が大幅に向上しました。
Understanding searches better than ever before -Google公式ブログ
このようにGoogleは、自然言語処理に関する様々な技術の開発と導入を進めています。
開発者や研究者ではなくても、SEOを行う上では、自然言語処理に関する最低限の理解は必要だと言えます。
おそらく今後もこの流れは続くでしょう。
エンティティとは?
Googleの定義によると「特異で、ユニークで、明確に定義され、区別できるものである」と説明しています。
エンティティは、物理的な物体である必要はなく、キーワードのように特定の単語やフレーズである必要もありません。
一般的なエンティティの例としては下記のようなものになります。
- 人の名前(人物):これは個々の人を指します。例えば、「木村拓哉」、「鳥山明」、「ジェームズ・ボンド」など。
- 地名(場所):国、都市、地域などの地理的な位置を指します。例えば、「アメリカ」、「東京」、「ミシシッピ川」など。
- 組織名:これは企業、政府機関、非営利団体などを指します。例えば、「トヨタ」、「内閣府」、「赤十字」など。
- 日付/時間:「2023年6月24日」や「12:15 PM」など、特定の時間や日付を指します。
- 数値表現:「二十」、「百万」、「3.14」などの数値を指します。
- イベント:特定の事象や発生したこと。例えば、「第二次世界大戦」、「2020年オリンピック」など。
これらはすべて一般的なエンティティタイプですが、特定の用途に応じて、病名、製品名、法律、科学的な用語など、独自のエンティティタイプを定義することも可能です。
自然言語処理を行う際、テキスト内のこれらのエンティティをそれぞれ抽出して評価を行っています。
このようなエンティティ抽出(固有表現抽出、NERとも呼ばれる)は、情報抽出、自動質問応答、機械翻訳など、多くの自然言語処理タスクで重要な役割を担っています。
Googleは、これらの異なるエンティティを区別し、その情報を利用することで、ユーザーに満足度の高いより良い検索結果を提供することができています。
SEOでエンティティがあまり話題にならない理由
「エンティティ」という概念はSEOの世界では重要な役割を果たしていますが、国内一部のSEO担当者やマーケターの間では、あまり話題にされていないことが多いです。
その理由はいくつか考えられます。
学習難易度が高め
エンティティは比較的、抽象的で複雑な概念であり、SEOの初心者や非専門家にとっては理解するのが難しいかもしれません。
これはテクニカルSEO(技術的なSEO)の領域に当てはまり、一定の理解度を必要とします。
情報が不足している
SEOに関する教材や情報源の多くは、キーワードの重要性、被リンク作成、コンテンツマーケティングなど、より直感的で理解しやすいトピックに焦点を当てています。
もちろん、これらのトピックはSEOの成功にとって重要ですが、エンティティの概念はしばしば忘れられがちです。
キーワードと混同している
エンティティの最適化は、キーワードに重点を置いた既存の最適化手法と大きな重複があります。
その結果、エンティティとキーワードが混同されがちです。
キーワードとエンティティの違いについては後に解説します。
不確定な要素が多い
エンティティの最適化によるSEO効果を明確に測定することが難しいため、エンティティの考慮を避ける傾向にあります。
ちなみに、Googleがこのテーマについて話す際、「エンティティ」を「トピック」に置き換えて話すことが多いです。
即効性はない
当たり前ですが、エンティティを最適化したとしても、SEO効果ですぐに記事の順位が上がるわけではありません。
あくまでコンテンツの最適化戦略の1つとして捉えるのが健全です。
キーワードとエンティティの違い
「キーワード」と「エンティティ」は、情報検索やデータ分析において一般的に使われる2つの概念ですが、それぞれ異なる意味を持っています。
まずキーワードとは、コンテンツの中心となる単語であり、ユーザーが検索クエリに入力する単語のことです。
これにより、ユーザーは探している答えやコンテンツを見つけることができます。
キーワードは、質問や長い形式のクエリを選択したり、単独で使用することもできます。
例えば、「犬」というキーワードを考えてみましょう。
このキーワードは、犬に関連する情報を探すために使用されます。
検索エンジンで「犬」と入力すると、犬に関連するウェブページや画像などが表示されます。
一方、エンティティは、情報抽出や自動質問応答などのタスクにおいて、特定の情報を抽出したり、関連する情報を取得したりするために使用されています。
検索結果で表示されるナレッジパネルがその一例です。
犬のエンティティを考えてみます。
犬のエンティティには
- 種類(例: ゴールデンレトリバー、チワワ)
- 特徴(例: 毛の色、体の大きさ)
- 行動(例: 吠える、走る)
- 動物
- 哺乳類
- 飼い主
などが含まれます。
エンティティは、文脈や目的に応じて異なる情報を持つこともあります。
要約すると、キーワードはトピックや意味を表し、情報の検索や分類に使用されます。
一方、エンティティは具体的な実体や属性を表し、情報の抽出や関連付けに使用されます。
エンティティの顕著性とは?
エンティティの顕著性(entity salience)とは、特定の文脈やテキスト中での特定のエンティティの重要度や関連性を示す指標のことです。
これは自然言語処理や情報抽出の分野で一般的に使用されています。
最新の自然言語処理では、テキストのセクション内でエンティティがどの程度重要なのかを示すために、エンティティに定量的な指標を割り当てることができます。
この指標のことを「エンティティ顕著性スコア」と呼びます。
Googleにおける顕著性スコアは、0~1.0の範囲で示されます。
スコアが0に近いほど、顕著性が低く、スコアが1.0に近いほどエンティティの顕著性が高いということです。
顕著性スコアを高める方法
Googleが顕著性スコアを算出する際の具体的な方法は、外部に公開されていません。
しかし、一般的な自然言語処理の原則やGoogleの研究論文を基に、著者がGoogleの自然言語AIを使用した経験から、エンティティの顕著性スコアを高める方法をいくつか解説します。
なお、ここからの説明は誰でも手軽に確認できるよう、Googleの「Natural Language API 」のデモ画面をキャプチャしながら行います。
デモ画面では、無料でテキストの分析を行えるので、使ったことがない人は利用してみてください。
エンティティの位置
テキスト内でのエンティティの位置は、そのエンティティの顕著性に大きく影響する要素の1つです。
例えば下記のような2つの文章があったとして
- 「伏見稲荷大社は、京都で非常に人気のある観光スポットです。」
- 「京都には、有名な伏見稲荷大社をはじめ、多くの人気な観光スポットがあります。」
これらの文章をそれぞれ解析してみます。
両方の文は同様の意味を表していますが、1番目の文での「伏見稲荷大社」の顕著性スコアが、2番目の文よりも高くなっています。
このように、テキストの始めの方や特定の重要な位置(例:見出しや文末部分)で現れるエンティティはより顕著であると考えられます。
文法的な機能
文の主語(何かをしているエンティティ) は、目的語(何かが行われているエンティティ)よりも顕著性が高くなる傾向があります。
例えば
①「ロケット団は、ピカチュウをアジトへ持ち去った。」
という文章の場合、「ロケット団」というエンティティが先頭に配置され、動詞「持ち去る」の主語になっています。
そして「ピカチュウ」は動詞の目的語であり、二次的な要素として認識します。
次にトピックを作成する際、「ロケット団」ではなく、「ピカチュウ」に焦点を当てたい仮定し、この文章を
②「ピカチュウは、ロケット団によってアジトに持ち去られた。」
に置き換えました。
この文章は、先程の①の文章と同じ意味を持ちますが、顕著性が大幅に入れ替わります。
このようにテキスト内エンティティの位置だけでなく、焦点を当てたいエンティティが主語なのかどうかを考慮すると顕著性が向上します。
言語的な依存関係
一般的に顕著性が高いエンティティは、同じテキスト内に存在する他の単語と文法的にリンクしているケースが多いです。
Natural Language APIの「Syntax」タブをクリックすると、構文ラベルとともに、どの単語が相互にリンクしているかを文ごとに表示できます。
今回は、「ロケット団」のエンティティを含めた、ある程度の長さの文章を用意しました。
ロケット団は、本部にピカチュウを持ち去りましたが、ニャースの手助けがなければ実現できなかったでしょう。
青色に塗られた単語は、黄色に塗られた「ロケット団」と密接に関連しており、緑色に塗られた単語は青色ほどではありませんが、二次的な関連性があります。
下記の依存関係ツリーを確認すると、前半のフレーズに位置している「持ち去り」という動詞を通じて、様々な単語とリンクしていることが分かります。
「持ち去り」から出ている緑色の矢印の数は、この動詞が文章内の様々な単語と強い依存関係を持っていることを表しています。
この文章では長さと複雑さにより、「ロケット団」の顕著性が低くなっていますが、一番強い動詞(持ち去り)の主語であることから、全体で見るとまだまだ高い数値(0.24)です。
長い文章で特定のエンティティに焦点を当てたい場合、他の単語と強い依存関係を持つ動詞を、特定のエンティティと意味的に関連付けできる文章を作成すると良いでしょう。
エンティティの明瞭さ
とあるエンティティが文の先頭部分で使用され、その後再び文の途中で使用される場合など、エンティティの表記が下記のように異なる場合、2つのエンティティを同じものとして認識しない場合があります。
- 大文字と小文字(例:Apple、apple)
- 同義語や類義語(例:航空操縦士、航空パイロット、飛行士)
基本的にGoogleの技術は、これらのような表記の違いを理解できるようになっていますが、特定のケースにおいて、このようなことが起きてしまう場合があります。
顕著性を最適化する際は、文章全体を通じて、エンティティの表記に一貫性を持たせたほうが安全と言えるでしょう。
エンティティの参照数
テキスト全体においての、エンティティへの参照の頻度も顕著性に大きく影響します。
しかし、ここで注意したいのは、キーワードスタッフィングのような、同じ表記のエンティティを繰り返し参照するのは避けてください。
下記のような3種類の参照タイプを使い分けるのがベストです。
- 名前付き参照:イチロー、メッシ
- 名目上の参照:バッター、フォワード
- 代名詞的な参照:彼、選手
このように名前付き参照、名目上の参照、代名詞的な参照を組み合わせて使用することにより、焦点を当てたいエンティティの参照数を最適化することができます。
繰り返しにはなりますが、キーワードスタッフィングのような、名前付き参照を繰り返し使用するのは避けましょう。
あくまで自然な文章で参照数を最適化し、エンティティの顕著性を高めるのが良いです。
顕著性スコアを高める際の注意点
まず、今回紹介したGogoleの自然言語APIのデモは、入力するテキストが長くなればなるほど有用性が減少します。
テキストが複数のセクションによって分割されている(見出しと段落)ような、実際のWebページを解析するのには不向きです。
製品ページ、サービスページ、カテゴリーページ、メタディスクリプション、広告文のような比較的短いテキストを処理する際には最適です。
長いテキストを解析する際は、セクションごとに区切って分析することをおすすめします。
※ページ全体を分析するには、APIを活用して独自で分析ツールを開発する必要があります。
現時点の提供されているデモ機能では、単一のテキストを評価するのに適しているため、実際のSEO戦略に落とし込む際は、既に1ページ目に順位付けされているコンテンツに対して、顕著性を最適化するのが最も有効的な活用方法だと思います。
例を挙げるとコンテンツの下書きや、2ページ目以降に順位付けされているページに対して顕著性を調整するのは止めておいたほうが良いでしょう。
この場合は優先度が高い、その他のやるべきことに注力するほうが賢明です(キーワードの最適化や被リンク獲得など)。
最後に
今後、Googleの自然言語APIを上手く活用したSEOツールが市場に登場すれば、SEOのコンテンツ最適化戦略は更に高いレベルまで進むと著者は期待をしています。
海外の一部ツールではすでにこのAPIを使用していると思われるツールがいくつか出ていますが、利用してみた所感だと、日本語には最適化されていないケースが多く、実際のSEOに落とし込むには困難なレベルでした。
著者はコンテンツの改善目的に、GoogleのAPIを使って独自の分析ツールを開発しましたが、まだまだ改良が必要なので、公開できるレベルになったら公開しようと思います。
最後にこの記事が参考になった、あるいはご質問などがある方は、ぜひコメント欄でお聞かせください。
コメント