JMWELの開発
21世紀に入り、慣用句、決まり文句、コロケーションといった自然言語の特異・典型表現の取扱いが重要視されるようになり、自然言語処理(NLP)分野では「複単語表現Multiword expression; MWE」、「複単語ユニットMultiword Unit; MWU」、言語学では「定型言語Formulaic Language」、「慣用連語phraseology」、「単語連鎖lexical Bundles」、「構文文法Construction Grammar」などの枠組みで種々の研究が行われています。(参考文献、6、7、8、10、11、12)
当工房は1960年代から日本語処理研究の一環としてこの種の表現の総括的なデータ化を行ない、現在、平仮名見出し数約160,000(異なり)の日本語複単語表現レキシコン(JMWEL ; Japanese MWE Lexicon)として整備しています。概要は、以下でも報告しています。
- M. Takahashi et al. 2024. A comprehensive Japanese MWE Lexicon: JMWEL, in Recent Advances in Multiword Units in Machine Translation and Translation Technology, John Benjamins Publishing Co.(採録決定)
- T. Tanabe et al. 2014. A lexicon of multiword expressions for linguistically precise, wide-coverage natural language processing, Computer Speech and Language, 28, pp.1317-1339, Elsevier
- K. Shudo et al. 2011. A comprehensive dictionary of multiword expressions, Proceedings of the 49th Annual Meeting of ACL, Portland, pp.161-170
- 高橋ほか,2018. 日本語複単語表現レキシコン(JMWEL)の概要と現状─動詞性複単語表現を中心として─, 言語処理学会第24回年次大会発表論文集C3-3
- 首藤, 2012. 日本語計算機処理のための大規模日本語複単語表現辞書の開発, 第59回電気科学技術奨励賞受賞記念講演, 九州大学
JMWELの主な特徴は、以下の通りです。
- 表現の種類と異表記形の網羅性が比較的高い
- 表現の構文構造を与えている
- 例えば、「手を広げる」に対する「手を/外国にまで/広げる」のような内部修飾(「外国にまで」など)の可能性による構文柔軟性を記載している
- 「たった一つも・・・ない」のような呼応現象もデータ化している
- 「猫に小判」、「ピンからキリまで」のような不完全慣用句も収録している
- 不特定多数の出版物(新聞、雑誌、小説、辞書類など)、テレビ、ラジオの放送文から内省によって採集・整理されている
JMWELは我が国における日本語処理等の学術研究および商用に利用して頂けます。詳しくはお問い合わせください。