mixi日記キーワードランキング

mixiのことは、mixi以外で。
 
mixi日記キーワードランキングは、なかなか面白い。
単純に集計しても、このようにはいかないので、いろいろと仕掛けをほどこしてあるようだ。
 

mixi日記キーワードランキングの秘密
http://alpha.mixi.co.jp/blog/?p=25

 
ここで説明してあるとおり、「同じ話題に属する語は相互にペナルティをかける」ことで、キーワードランキングが同じ話題に集中しないように調整しているのだろう。
例えば、2007年12月6日のキーワード4位「ゴキブリ」は、関連日記を見れば、明らかに「ケンタッキー」と共に使われている。
しかし、「ケンタッキー」はランキングにあられていない。
ここに、同じ話題の語としてのペナルティがかけられているのだろう。
ではなぜ、「ゴキブリ」が残って「ケンタッキー」が消えるのか。
きっと恣意的な操作が入っているのだろうが、ブラックボックスだから分からない。
(「ケンタッキー」は日常語に近いくらいよく使われる語のひとつという解釈もできるが、では「ゴキブリ」は?)
できれば、この話題の語の塊(クラスタ)ごと公開してもらうともっと楽しい。
しかし、企業としては隠したいところだろう。

ところで、このキーワードランキングの履歴を取っている人はいないのか。
けっこう面白いと思うので見てみたい。