ibukiTenC
はじめに
私たちの研究室では、日本語文節構造解析システムibukiCを開発しています。
辞書の整備も、またマニュアル等の整備も未だ十分な状態ではありませんが、開発途上版として公開することにしました。
商業的な利用はお断りしますが、それ以外は基本的に自由です。詳細は「ibukiCの無償利用許諾契約」にまとめてありますので、 お読みいただいて同意の上お使いください。
ibukiCについて
ibukiCは、単語を切り出すいわゆる形態素解析だけでなく、係り受け構造を意識した文節単位と文節内の構造を抽出することを目的としています。
文節の機能語部分は、意味的なまとまりとしてとらえやすい長めの単位を採用し、また“「ね」で区切れる単位”などとされる通常の文節単位にこだわらず、係り受けの単位として合理性があると我々が考える単位を設定しています。たとえば、
「鯨かもしれなかったが」
は通常はこのままで1文節とされますが、ibukiCでは
(鯨 Φ)
(Tダ かもしれない た が)
のように、“Tダ”という特別の動詞を導入して2文節に分割しています。このように分割するかどうかは、「かもしれない」の辞書記述で設定できます。
機能語部分は、実際はもっと踏み込んで、機能的・意味的内容から設定した6つの要素部に分割しています。たとえば、
「食べたのが悪かったようです」
は、
(食べる Φ た Φ Φ Φ Φ 連体)
(Yの Φ が Φ Φ Φ Φ 連用)
(悪い Φ た Φ Φ ようだ Φ Φ 文末)
のように解析されます。この要素分割も辞書記述で設定します
開発の経緯
ibukiCは池田研究室で、あれこれやりながら多くのメンバーが引き継いで開発・改良を続けてきたものです。名前にも変遷がありました。ibukiCの前身はibukiBです。ibukiCについてはH18年度修士課程修了の山田佳裕君、学部卒業の脇田貴之君、H17年度修士課程修了の高松大地君、石原吉晃君、H16年度修士課程修了の伊佐治和也君などが中心になって進めてくれました。ibukiBとぞれ以前も含めれば、ibukiシステムの開発には、池田研究室に在籍したすべての学生たちが何らかの貢献をしています。皆さんに感謝します。
ibukiCは未だversion0.10です。今後も、もっと整備を進め改版を続けていくつもりです。
(なお、ibukiは、岐阜県と滋賀県の県境に聳える名山「伊吹山」から拝借した名前です。)
平成19年3月20日
岐阜大学工学部応用情報学科 教授 池田尚志