2006/12/19

Extract Keywords.

Blogに投稿された記事から、キーワードを抽出してそれを元にAmazonの広告を作成とかって流れを夢想中。もちろんBloggerというかWidgetというルールで。

まずは形態素解析が必要になるんですが、「すべての漢字を取り出す正規表現」をPHPで試す って記事と、それをJavaScriptに応用した記事 を発見。 こちらの方はKOSHIAN API という文章からキーワードを使うAPIを実験的に公開もされています。

KOSHIANでバッチリじゃないとか思ったりもするんですが、実験的に公開されているAPIをガシガシ叩くわけにもいないので、

var res = str.match(/[一-龠]{2,}[ァ-ヴー]{2,}[a-zA-Z.]{2,}[a-zA-Z]{2,}/g);

ってのを拝借する事にします。

Keywordsが抽出できた所でこれに順位づけをしてやる必要があるんですが、これにはGoogle Suggestとはてなブックマーク件数取得APIとかを使って見ようかと。 本筋としてはAmazon ECS4.0のAPIをうまく使うべきかと思いますが、ちょっと寄り道も楽しいかと。

関連のありそうな記事

0 コメント: