« 剣持氏インタビュー | トップページ | 他言語と初音ミクについて »

MecabとYahoo!の形態素解析の比較

Yahoo!の形態素解析を用いた miku_talk も試作してみました。Mecab と形態素解析の性能を比較するためです。速度的にはどちらでも十分に速くて実用的ですが、形態素解析にはそれぞれ一長一短あります。

今回の御題は宮沢賢治の「風の又三郎」です。青空文庫 のテキストを利用させていただきましたので、ここに感謝の意を表します。

谷川の岸に小さな学校がありました。
教室はたった一つでしたが生徒は三年生がないだけで、あとは一年から六年までみんなありました。運動場もテニスコートのくらいでしたが、すぐうしろは栗の木のあるきれいな草の山でしたし、運動場のすみにはごぼごぼつめたい水を噴く岩穴もあったのです。さわやかな九月一日の朝でした。青ぞらで風がどうと鳴り、日光は運動場いっぱいでした。黒い雪袴をはいた二人の一年生の子がどてをまわって運動場にはいって来て、まだほかにだれも来ていないのを見て、「ほう、おら一等だぞ。一等だぞ。」とかわるがわる叫びながら大よろこびで門をはいって来たのでしたが、ちょっと教室の中を見ますと、二人ともまるでびっくりして棒立ちになり、それから顔を見合わせてぶるぶるふるえましたが、ひとりはとうとう泣き出してしまいました。というわけは、そのしんとした朝の教室のなかにどこから来たのか、まるで顔も知らないおかしな赤い髪の子供がひとり、いちばん前の机にちゃんとすわっていたのです。そしてその机といったらまったくこの泣いた子の自分の机だったのです。

宮沢賢治 「風の又三郎」より

◆Mecab版 「kazeno_matasaburou.mp3」をダウンロード

1から9までの数字をちゃんと読めるが、10以上の数字を読むことはできません。
また、正確に文章を形態素に落としてくれる場合があるかと思えば、ときどきとんでもない読みをします。恐らく辞書の問題とはおもいます。
前回のブログの朗読のときでも、「初音みく」を「ハツオトミク」と読むのはまだしも、「設計者」を「せっけいもの」と読むのは失礼にあたるので、ちょっとまずいですね(笑)。
Mecabはユーザー辞書の定義ができるので、今度トライしてみたいとおもいます。

◆Yahoo!形態素解析版 「y_kazeno_matasaburou.mp3」をダウンロード

数字をまともに読まずに無視しますが、それ以外は正確に文章を形態素に落としてくれます。
Yahoo!形態素解析のいちばんの問題点は「使用者それぞれがアプリケーションIDを登録しなければならない」点です。Yahoo!のWEB-APIの利用許諾には、アプリケーションIDは一般に公開しないように記載されています。
ユーザーにそんな登録のための労力を強いるというのは、アプリケーションの使い勝手を極めて損なうものですので、リリース用アプリケーションに用いるのはためらってしまいます。

|

« 剣持氏インタビュー | トップページ | 他言語と初音ミクについて »

初音ミク」カテゴリの記事

コメント

mecab-ipadicの最新バージョンだと、少なくとも
設計者は正しく読めていると思います。


設計者
設計 名詞,サ変接続,*,*,*,*,設計,セッケイ,セッケイ
者 名詞,接尾,一般,*,*,*,者,シャ,シャ

投稿: tk | 2008年1月 9日 (水) 10時57分

mecab-ipadic の最新バージョンで追試して、「初音ミク」および「設計者」が正しく読めていることを確認いたしました。

こちらに辞書ファイルはありますが、UTF8形式なんですよね。
http://qwik.jp/tritonn/download.html
Mecab の Windows用バイナリのアップデートを待とうかそれとも詳細なインストールを記載しようかと迷っています。

投稿: 和泉聡 | 2008年1月 9日 (水) 23時12分

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/110295/17627534

この記事へのトラックバック一覧です: MecabとYahoo!の形態素解析の比較:

» Yahoo!の日本語形態素解析Webサービスも調べてみた [aikeの日記]
ミク語変換を作るにあたって、レンタルサーバでMeCabが使えないことを想定してYahoo!デベロッパーネットワークの日本語形態素解析Webサービスについても調べてみました。 特徴 アプリケーションID登録が必要 発音が返せない 入力テキストはURLエンコードの形で渡す 出... [続きを読む]

受信: 2008年1月15日 (火) 02時49分

« 剣持氏インタビュー | トップページ | 他言語と初音ミクについて »