キーワード雑記 - やっぱり形態素解析が必要だと思う

今さらだけどキーワードがダイアリー以外のトコでもけっこう使われている昨今、やっぱり形態素解析は必要なんじゃね? ということを今一度言いたい。というわけでidea:4209[キーワード]形態素解析を導入してほしい。」を登録。
登録する前に一応「形態素」で検索してみたんだけど見当たらなかった。今まで登録されてなかったのかね? 意外だな。
だらだらと導入した時どうなるかなぁ、あの問題が解決できるかも、とかのメモ。

  • 「なっち」が「なっちゃう」にミスヒットする問題(現状では回避できてるけどおなじみの代表例なので)
  • 「さんま」が「○○さんまで」にミスヒットする問題
  • 以前TVドラマ「すいか」が「使いやすいから」などにミスヒットするという理由でカギカッコ付きで登録されたという問題
  • 「のの」問題
  • オレの日記で時々「カブる」「カブった」という語を使うんだけどそのたびに「カブ」にヒットするのでいつも「ジャマだなぁ」と思ってるっていう問題
    • 形態素解析を導入して、『「カブる」という「動詞」を登録すると、活用して「カブった」「カブってる」とかも拾ってくれたりする』、みたいなことができるとステキ
    • 「暑い」という「形容詞」を(以下略)、でもいいよね
  • 二文字キーワード各種
  • てゆうか形態素解析を導入した暁には「猫」とか一字キーワードもありにしてほしいかも
    • ムリか

「keyword:はてな公聴会議事録」より関係するテキスト抜粋

はてな公聴会第1回」の議事録。2004-09-11に行われたものだとのこと。抜粋の仕方が適切かどうか分からないので本文の方も読んでおいてください。

  • okgwa
    • キーワードは文字列に過ぎない
    • Google形態素解析を検索語についておこなっているが、はてなでは行っていない
    • 表記のゆれも補正しない
    • それらを受け入れ、品詞について議論すべきではない
  • m
    • はてなはキーワードを登録していて、Googleはキーワードを拾っているので解析する必要はない
  • okgwa
    • 先生きのこる」というキーワードは面白い。こういった活用ができるのははてなだけ
    • 単語、品詞というものを無視してこういったワードが登録されるのがはてならしい

形態素解析は出来が80%くらいのものなら入れられる」とある。8割くらいでもいいよー、とオレは思うんだけどどうよ。一年くらい前なんだよな、この話。