ibukiCの特徴
長単位機能語
一般に文節機能語部は自立語および機能語間の接続規則によって連接可否(あるいはその程度)を判定することで解析を行っていますが、機能語として辞書に登録する単位は様々であり、「て」「しまう」「た」のように短い単位で登録することも可能ですし、「てしまった」のように長い単位で登録することもできます。
前者の場合,登録する機能語はごく少数で済むが、接続規則の設定が複雑になり、誤った機能語部の表現を生成してしまう可能性があります。また、機械翻訳等の応用システムでは、それらを要素合成的に処理しなくてはならなくなり、複雑になります。一方、後者の場合、接続規則は単純になり、意味的扱いが錯綜し複雑にはならないという点では有利です。
そこでibukiCでは「までもが」や「なかっただろう」などのように連続する複数の助詞・助動詞をひとまとめにした長単位の機能語を用いています。
また、「にあたり」「に対して」などのような自立語の機能的表現なども、長い単位の機能語として登録しています。これにより、こういった表現は(年頭にあたり)と1文節で解析されます。
ibukiCは、単語を切り出すいわゆる形態素解析だけでなく、 係り受け構造を意識した文節単位と文節内の構造を抽出することを目的としています。 文節の機能語部分は、意味的なまとまりとしてとらえやすい長めの単位を採用し、
また“「ね」で区切れる単位”などとされる通常の文節単位にこだわらず、 係り受けの単位として合理性があると我々が考える単位を設定しています。
文節構造
機能語要素の表について
体言系文節、用言系文節の機能語要素については、ibukiC v0.10のものです。v0.20以降はこのとおりではありません。
v0.20の情報は以下の論文のp.3をご覧ください。
機能文節を導入した文節構造解析システム(ibukiC v0.20)
ibukiC で付与する文節構造は
「文節カテゴリ(23 種類:主に自立語の品詞を表す)」、「自立語」、「自立語品詞」、「機能語部を最大6 つに分割した各要素」、「係り先情報(連体,連用,など17種類)」、「句読点」の情報から構成すると定義しています。
<文節カテゴリ>計23種
N:名詞文節 | SN:形式名詞 | KA:カ系文節 | |
TO:引用機能語文節 | NUM:数詞関係文節 | TailN:接尾語 (名詞を構成) |
TailN:接尾語 |
TailP1:接尾語 (形容詞を構成) |
TailP4:接尾語 (形容動詞を構成) |
QC:」文節 (引用) |
QO:「文節 (引用) |
P1:動詞文節 | P2:ダ系文節 | P3:形容詞文節 | P4:形容動詞文節 |
AV:副詞文節 | AN:連体詞文節 | C:接続詞文節 | I:感動詞文節 |
UN:未知語文節 | UK:空白のみ文節 | UP:句点のみ文節 |
<自立語>
自立語単語。
動詞 の場合は終止形に変換する。
<自立語の品詞>
自立語単語の品詞。形態素解析と同じ。
一つの文節構造に自立語は一つである。
<機能語要素>各6要素
要素1 | とりたて機能[前] | くらい、だけ、、、 |
---|---|---|
要素2 | 格機能 | に、を、で、、、 |
要素3 | とりたて機能[後] | こそ、だけ、、、 |
要素4 | 提題機能 |
は、も、、、 |
要素5 | 接続機能 | の、、、 |
要素6 | 終助詞 | な、ね、、、 |
要素1 | 受身、使役等の助動詞 | させる、られる、、、 |
---|---|---|
要素2 | 時制、肯否等の助動詞 | ない、た、、、 |
要素3 | とりたて詞 | も、さえ、すら、、、 |
要素4 | 判断等の助動詞 | だろう、に違いない、、、 |
要素5 | 接続助詞 | けれども、ので、、、 |
要素6 | 終助詞 | よ、ね、、、 |
<係り先情報>計17種
連用 | 連体 | 連中 | 並体 | 並列|連用 |
仮定 | 独体 | 独用 | 独KD | 独未 |
独数 | 括弧開 | 括弧閉 | 文末 | |
直後 | 複合語 | 係り先なし |
<句読点>
句読点「。、?等」
文節分割
通常の文節を必要に応じて分割する処理も行っています。
たとえば、「鯨かもしれなかったが」 は通常はこのままで1文節とされますが、ibukiCでは次のように2文節に分割します。
(鯨 ΦΦΦΦΦΦ直後)
(Tダ ΦΦΦかもしれない/たがΦ連用)
またたとえば 、「食べたのが悪かったようです」は、次のように解析されます。
(食べる Φ た Φ Φ Φ Φ 連体)
(Yの Φ が Φ Φ Φ Φ 連用)
(悪い Φ た Φ Φ ようだ Φ Φ 文末)
"Tダ"や"Yの"を導入し、このように分割することは辞書記述で設定できます。
操作方法
起動時の辞書選択
起動時に解析に使用する辞書を選択できます。
ユーザ辞書を作成していない場合は、初期辞書を選択してください。
(*現在ユーザ辞書機能は利用できません)
画面に入力して解析する
メインウィンドウの入力文エリアに解析したい文を入力し、解析実行ボタンを押すかALT+Aで解析が実行されます。
- 文節構造解析結果
文節構造解析の結果を表示します。 文節構造についてはこちら
- 文ID
1文ごとに番号をつけます。 - 文節ID
1文中の各文節に番号をつけます。
- 文ID
- 文節SubID
文節の再分割をした際に、新しくできた文節に番号をつけます。 - 文節・形態素
文節を形態素区切りに「/」を入れて表示します。
文節分割を行った場合、一番上の文節に分割前を表示し、その他は特殊文節となります。 - 文節のカテゴリ
自立語情報を元に文節にカテゴリを付与します。 - 自立語
文節の自立語部分です。動詞の場合は終止形に変換されます。 - 自立語の品詞
自立語の品詞です。 - 機・要素1〜6
機能語部分を、機能的・意味的内容から設定した6つの要素に分割しています。
該当要素がない部分はΦとなります。 - 係り先情報
文節の係り先情報です。 - 句読点
文節に句読点がある場合、その句読点を表示します。なければΦとなります。
- 文ID
1文ごとに番号をつけます。 - 文節ID
1文中の各文節に番号をつけます。 - 誤り可能性
ibukiCの文節解析に誤りの可能性が予想される場合#を、予想されなければΦを表示します。 - 形態素番号
文節内の各形態素に番号をつけます。 - 見出し
形態素を表示します。 - MID
形態素に辞書上でつけられている番号です。 - 品詞
形態素の品詞です。 - 点字表記
形態素の点字表記です。複数ある場合は「,」ではさんで表示します。
解析時に機能語要素を標準化します。
例)でしょう→だろう
ファイル上のテキストを解析する
メインウィンドウのメニューバーの<ファイル解析>→<ファイル解析ダイアログ>から開きます。
詳細設定で出力情報を指定できます。
解析結果ファイルは解析対象ファイルと同じ場所に作成されます。
動作環境
必要なシステム | Windows2000/XP日本語版が動作するパソコン |
---|---|
CPU | PentiumⅢ500MHz以上 |
メモリ | 128MB以上 |
ハードディスク | 30MB以上 |