ibukiTenC

はじめに

私たちの研究室では、日本語文節構造解析システムibukiCを開発しています。

辞書の整備も、またマニュアル等の整備も未だ十分な状態ではありませんが、開発途上版として公開することにしました。

商業的な利用はお断りしますが、それ以外は基本的に自由です。詳細は「ibukiCの無償利用許諾契約」にまとめてありますので、 お読みいただいて同意の上お使いください。

ibukiCについて

ibukiCは、単語を切り出すいわゆる形態素解析だけでなく、係り受け構造を意識した文節単位と文節内の構造を抽出することを目的としています。

文節の機能語部分は、意味的なまとまりとしてとらえやすい長めの単位を採用し、また“「ね」で区切れる単位”などとされる通常の文節単位にこだわらず、係り受けの単位として合理性があると我々が考える単位を設定しています。たとえば、
  「鯨かもしれなかったが」
は通常はこのままで1文節とされますが、ibukiCでは
  (鯨 Φ)
  (Tダ かもしれない た が)
のように、“Tダ”という特別の動詞を導入して2文節に分割しています。このように分割するかどうかは、「かもしれない」の辞書記述で設定できます。

機能語部分は、実際はもっと踏み込んで、機能的・意味的内容から設定した6つの要素部に分割しています。たとえば、
   「食べたのが悪かったようです」
は、
  (食べる Φ た Φ Φ Φ Φ 連体)
  (Yの Φ が Φ Φ Φ Φ 連用)
  (悪い Φ た Φ Φ ようだ Φ Φ 文末)
のように解析されます。この要素分割も辞書記述で設定します

開発の経緯

ibukiCは池田研究室で、あれこれやりながら多くのメンバーが引き継いで開発・改良を続けてきたものです。名前にも変遷がありました。ibukiCの前身はibukiBです。ibukiCについてはH18年度修士課程修了の山田佳裕君、学部卒業の脇田貴之君、H17年度修士課程修了の高松大地君、石原吉晃君、H16年度修士課程修了の伊佐治和也君などが中心になって進めてくれました。ibukiBとぞれ以前も含めれば、ibukiシステムの開発には、池田研究室に在籍したすべての学生たちが何らかの貢献をしています。皆さんに感謝します。

ibukiCは未だversion0.10です。今後も、もっと整備を進め改版を続けていくつもりです。

(なお、ibukiは、岐阜県と滋賀県の県境に聳える名山「伊吹山」から拝借した名前です。)

平成19年3月20日
岐阜大学工学部応用情報学科 教授 池田尚志

お知らせ

ibukiC ver0.41を公開しました

ibukiC ver.0.41では係り受け解析機能を追加しました。

2009/3/2

ibukiC ver0.30(開発途上版)を公開しました

あわせて、ibukiCdic.mdb m_ver0.30 (開発途上版の辞書・規則類)も公開しました。使用にはmicrosoft社のAccessが必要です。

また、ibukiC.dll d_ver0.30(プログラムから利用するための開発途上版ibukiCのDLL)も公開しました。

versionの対応は小数点一桁目が一致していれば相互に使用可能です。

2008/3/10

ibukiC ver0.20(開発途上版)を公開しました

IbukiC ver0.10からの変更点は下の更新履歴や次の論文を御参照下さい。

機能文節を導入した文節構造解析システム(ibukiC v0.20) LACE第12回年次研究会 2007.12

ver0.10も引き続きあわせて公開しています。

また、このホームページの「ibukiCについて」や「ibukiCの特徴」など"機能紹介"の内容はver0.10のままになっています。

2007/11/28

ibukiC ver0.10(開発途上版)を公開しました

2007/3/20

更新履歴

リンク