« DTMマガジン増刊CV01初音ミク | トップページ | 涙にさよなら »

Yahoo!の形態素解析

先日ご紹介した Yahoo!の日本語形態素解析WebサービスをPerlから叩いてみました。
サンプルプログラムはケーズメモさんのブログにアップされています。
Yahoo!の形態素解析を利用してみた by Perl
 殆ど完璧なサンプルで、モジュールをうまく活用して極めて短くシンプルに仕上がっています。デフォルト状態だとYAMLモジュールが無いことに起因するエラーが表示されるので、コマンドラインから ppm を起動して、install YAML を入力してください。
 あと、ソースコードは UTF-8 であることが前提となっています。うっかりS-JISで保存したら、解析結果が化け化けになってしまいました。ご注意ください。
 お約束の特許法2条1項 「発明とは、自然法則を利用した技術的思想の創作のうち高度なものをいう。」を形態素解析した結果はこちらです。

---
ma_result:
  filtered_count: 23
  total_count: 23
  word_list:
    word:
      - pos: 名詞
        reading: はつめい
        surface: 発明
      - pos: 助詞
        reading: と
        surface: と
      - pos: 助詞
        reading: は
        surface: は
      - pos: 特殊
        reading: 、
        surface: 、
      - pos: 名詞
        reading: しぜん
        surface: 自然
      - pos: 名詞
        reading: ほうそく
        surface: 法則
      - pos: 助詞
        reading: を
        surface: を
      - pos: 名詞
        reading: りよう
        surface: 利用
      - pos: 助動詞
        reading: し
        surface: し
      - pos: 助動詞
        reading: た
        surface: た
      - pos: 名詞
        reading: ぎじゅつ
        surface: 技術
      - pos: 接尾辞
        reading: てき
        surface: 的
      - pos: 名詞
        reading: しそう
        surface: 思想
      - pos: 助詞
        reading: の
        surface: の
      - pos: 名詞
        reading: そうさく
        surface: 創作
      - pos: 助詞
        reading: の
        surface: の
      - pos: 名詞
        reading: うち
        surface: うち
      - pos: 名詞
        reading: こうど
        surface: 高度
      - pos: 助動詞
        reading: な
        surface: な
      - pos: 名詞
        reading: もの
        surface: もの
      - pos: 助詞
        reading: を
        surface: を
      - pos: 動詞
        reading: いう
        surface: いう
      - pos: 特殊
        reading: 。
        surface: 。
xmlns: urn:yahoo:jp:jlp
xmlns:xsi: http://www.w3.org/2001/XMLSchema-instance
xsi:schemaLocation: urn:yahoo:jp:jlp http://api.jlp.yahoo.co.jp/MAService/V1/parseResponse.xsd

 XMLファイルはこちらです。【「hatumei.xml」をダウンロード
 読み仮名の情報はそのまま入っているので使えそうです。文節情報は、品詞情報をもとに再構築する必要があるかと思います。
 これで chasen と辞書のインストールなしに形態素解析ができましたので、次は形態素解析した結果をもとに .VSQ ファイルを自動生成させたく思います。

|

« DTMマガジン増刊CV01初音ミク | トップページ | 涙にさよなら »

初音ミク」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/110295/17086246

この記事へのトラックバック一覧です: Yahoo!の形態素解析:

« DTMマガジン増刊CV01初音ミク | トップページ | 涙にさよなら »