« 2009年7月19日 - 2009年7月25日 | トップページ | 2009年8月16日 - 2009年8月22日 »

2009.08.05

修正

「JapneseDivide.js」をダウンロード

空白系文字に対応

JavaScriptの正規表現で\sがうまく動いてくれない?

| | コメント (0) | トラックバック (0)

2009.08.04

日本語分解JavaScript

日本語を単語単位っぽく分解する簡易JavaScriptを作った

「JapneseDivide.js」をダウンロード

本格的にやるには単語のDB(マルコフ行列みたいなの?)が必要だと思うけど、とりあえず
・句読点や文字種別(ひらがな、カタカナ、等)を分け目にする
・助詞が出てきたら取り除く
である程度はいけるはず、との考えから上記手法でやっている。
送り仮名とかが問題だけど、まぁ送り仮名で分離されてもある程度は使えるカナ?
どこかにもっと効率のいい手法が転がってそうだけど、久しぶりにPGを組む気力が沸いたので自前で作った。

この手の論文とか読めばいいんだろうけどJavaScriptで簡易的にやるのが目的だし、大掛かりな重いJSにはしたくなかったので。

今は空白の処理が甘いので、今週で適当にブラッシュアップしよう。
無視関係の処理も詰めたい。(「とか【とかもいらない)

ちなみに例えば「私はハワイで結婚式を挙げました」なら「私、ハワイ、結婚式、挙、げました」という配列が帰ってくる。
同期が先週くらいに結婚した。

| | コメント (0) | トラックバック (1)

« 2009年7月19日 - 2009年7月25日 | トップページ | 2009年8月16日 - 2009年8月22日 »