品詞分解

Share on FacebookTweet about this on TwitterPin on PinterestShare on LinkedInShare on Google+Share on RedditShare on TumblrEmail this to someone

数年前に検索関係の仕事をしてた時の情報なので、現在のところは不明だが、検索エンジンなど、コンテンツをクロールして、インデックス(DBに登録するようなイメージ)を作る訳だが、その際に品詞分解などが行われる。

たとえば、WEBサイトに「明日の天気は晴れです。」という文章があったとしよう。検索エンジンによって違うのだが、次のように分解されインデックス化される。

明日

天気

晴れ
です

ここで、「。」は検索キーワードとして使われる事はないのでゴミ文字として処理。「の」「は」「です」なども同様に処理。そのため、実際にキーワードとして登録されるのは以下の単語になる。

明日
天気
晴れ

ここで、それぞれのキーワードに優先十位などを付けて登録され、誰かが検索した時に、このインデックスが参照される。というのが検索システムの一般的な流れだった。このように単語を抽出していく作業が品詞分解と言われていた。

 

折角なので、WEBサイト用に文章を書く場合、何がゴミ文字として扱われるかを意識していくと、検索結果に影響していくんじゃないかと思われる。特に日本語の場合、何をゴミ文字として処理するかが、言語研究者の腕の見せ所でもあると思うので、各社の特色が出てくるんではないかと思う。

基本的に半角スペースはゴミとして認識されるので、「品詞分解」という文字列を「品詞(半角スペース)分解」としておけば、インデックスでは、確実に「品詞」「分解」の2語になる。半角スペースがない場合は、各社のルールに依存する事になると思われる。「品詞」「分解」の2語として取り扱う会社もあれば、「品詞分解」で1語として取り扱う会社もあるに違いない。もしくは、全パターンでインデックス化もあり得る。

ある検索エンジンでは、全角スペースは文字として認識してたので、「品詞(全角スペース)分解」と書いてしまうと、「品詞」でも、「分解」でも検索できず、「品詞(全角スペース)分解」でのみ検索にひっかかるなんて事もあったので、こういった記号なども使い方に気を付けると良いのかもしれない。

とはいえ、実際のインデックスを見ることはできないので、なんとも言えないのだが。

Bookmark the permalink.

Comments are closed