パソコン・ガジェット

言葉の区切り方が変わるとGoogle検索の結果も変わる?

Google検索は賢いので、ある検索キーワードを調べるときに一部の表記(ひらがな・カタカナ・漢字)を変えても大体正しい結果が返ってきます。しかし、たまに全然違う結果が返ってくることがあります。

この違いについて、一つの仮説を立てて検証してみました。

  • 読み方が同じでも、文節の区切り方が変わると別の言葉として認識されて検索結果も大きく変わる?
  • 逆に、文節の区切り方が変わらなければ、漢字・カタカナ・ひらがなを変えても検索結果は変わらない傾向にある

仮説

今のGoogleは賢いので、少々違う書き方で検索しても、空気を読んで正しい検索ワードで検索したのと同じ結果を返してきます。Googleの内部のことはもちろん分かりませんが、AIや機械学習や言語処理などの分野では、「形態素解析」と呼ばれる処理を前処理の1つとして行うのが定石になっています。

形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。

Wikipedia 「形態素解析」より

形態素解析は(この分野のITエンジニアや研究者には)便利ですが、失敗すると全く異なる言葉として誤認識するリスクもあります。そこで、検索ワードを文節やさらに細かい単語(←中学国語で習ったかと…)に分けたときに、「明らかに異なる文節区切りになると、言葉を正しく認識できずに検索結果も変わる」という仮設が考えられます。

実験

このブログではなく、メインブログのタイトルである「旅とクレジットカードの手帳」という言葉で考えてみます。

「旅とクレジットカードの手帳」を文節で区切ると、「旅と」「クレジットカードの」「手帳」の3つに分かれます。これの一部をひらがなにして「旅とクレジットかーどのてちょう」にしたものを文節に区切ると、「旅と」「クレジットかーどの」「てちょう」の3つに分かれます。Google検索は賢いので「クレジットカードの」と「クレジットかーどの」は実質同じ、「手帳」と「てちょう」も実質同じと認識するらしく、検索結果の1件目も同じになりました。

「旅とクレジットカードの手帳」での検索結果
「旅とクレジットかーどのてちょう」の検索結果。「旅とクレジットカードの手帳」と結果の1つ目は同じ。

ここで、一部をあえて変な変え方にして「旅とくレジットカードのてちょう」という言葉にすると、「旅とく」「レジットカードの」「てちょう」という区切り方になります。こうなると、「旅と」と「旅とく」(恐らく「旅得」)は別の言葉として認識されるため、検索結果も変わってきました(「レジットカードの」は「クレジットカードの」のタイプミスだと判断されて、同じものとして扱われているようですが…)。元の「旅とクレジットカードの手帳」は、少なくとも1ページ目には出てきません。

「旅とくレジットカードのてちょう」の検索結果。「旅とく(得)クレジットカードの手帳」として認識されたらしく、検索結果が変わった。

実際にコンピュータの中で形態素解析がどのような結果になっているか、例えば次のサイト(私のものではない)で試すことができるようです。

試しに、ここで実験した「旅とくレジットカードのてちょう 旅とクレジットかーどのてちょう 旅とクレジットカードの手帳」を形態素解析すると次のようになりました。「旅とクレジットかーどのてちょう」と「旅とクレジットカードの手帳」は概ね正しい結果ですが、「旅とくレジットカードのてちょう」は「旅得 レジットカードの 手帳」として認識されているようです。

分かったこと

検索キーワードの一部の表記方法(ひらがな・カタカナ・漢字)が異なっても、文節で区切った結果が同じになるのであれば、Google検索では同じものとしてみなされるようで検索結果も似たものになります。しかし、運悪くキーワードの区切り方を間違ってしまった場合は、結果も大きく変わるようです。

これが原因で検索結果が思ったものにならない場合、意図する検索結果になるようにGoogleに教え込む方法があるのかもしれないですが、私はSEOに詳しくないので分かりません。ただ、見出しなどに使う言葉で文節の区切り方が意図しないものになり得るときは、文節の区切り方が明確になるようにキーワードを調整することが必要かもしれません。

-パソコン・ガジェット