日本語処理研究工房 ことばの森

大規模な日本語複単語表現辞書:JMWEL —次世代の日本語処理に向けて

JMWELの開発

21世紀に入り、慣用句、決まり文句、コロケーションといった自然言語の特異・典型表現の取扱いが重要視されるようになり、自然言語処理(NLP)分野では「複単語表現Multiword expression; MWE」、「複単語ユニットMultiword Unit; MWU」、言語学では「定型言語Formulaic Language」、「慣用連語phraseology」、「単語連鎖lexical Bundles」、「構文文法Construction Grammar」などの枠組みで種々の研究が行われています。(参考文献、6、7、8、10、11、12

当工房は1960年代から日本語処理研究の一環としてこの種の表現の総括的なデータ化を行ない、現在、平仮名見出し数約160,000(異なり)の日本語複単語表現レキシコン(JMWEL ; Japanese MWE Lexicon)として整備しています。概要は、以下でも報告しています。

JMWELの主な特徴は、以下の通りです。

JMWELは我が国における日本語処理等の学術研究および商用に利用して頂けます。詳しくはお問い合わせください。

辞書構成

採録表現は多岐に亘るため、辞書は表現の種類によって以下のように分割管理・公開しています。以下で、1-11が表現の文法機能(相当品詞)で分けた部分辞書、12以降はトピック別の部分辞書です。下の各辞書名をクリックすれば、サンプル等がダウンロードできます。(バージョンによって実際のものと異なっている場合があります。)

統計的性質

Web上の200億日本語文に現れるn-単語連鎖の出現頻度データLDC2009T08(Google社)とJMWELの『名詞+助詞(が、を、に)+動詞』型の動詞性表現(1類)とを比較した結果、JMWELには、

参考文献

アーカイブ

プロフィール

1943年1月/佐賀県武雄市(旧杵島郡武雄町)生れ
1970年3月/九州大学大学院電子工学専攻博士課程満退
1970年4月-2013年3月/福岡大学工学部電子工学科、同電子情報工学科、同大学院電子情報システム工学専攻、情報通信システム工学専攻で教職
1980年9月-1981年9月/テキサス大学言語研究センター(LRC)客員研究員
趣味は自動車整備、機械弄り、オーディオ