日本語処理研究工房
ことばの森

主幹:首藤公昭(工博)

jefi

Research Studio for Japanese Language Processing (Japanese Expressions Forest Institute: JEFI) Director: Kosho Shudo, Ph.D.

Copyright © 2011-2016 Kosho Shudo All rights reserved.
updated in 2016.6

日本語の特異・典型フレーズ大規模レキシコンを完成

—新世代の自然言語処理に向けて—
  • JMWELの開発
    • 21世紀に入って、慣用句、コロケーションといった自然言語の特異フレーズが注目されるようになり、自然言語処理(NLP)分野では「複単語表現Multiword expression; MWE」、「複単語ユニットMultiword Unit; MWU」、応用言語学では「定型言語Formulaic Language」などの名称で種々の研究が始められています。(参考文献1、4、5

      当工房は1960年代から日本語処理研究の一環としてこの種の表現の総括的なデータ化を行なってきており、現在、平仮名見出し数約145,000の日本語複単語表現レキシコン(JMWEL ; Japanese MWE Lexicon)として公開しています。 JMWELは、広く、フレーズベースの日本語処理のための標準言語資源として開発されています。概要は、

      • T. Tanabe et al. 2014. A lexicon of multiword expressions for linguistically precise, wide-coverage natural language processing, Computer Speech and Language, 28, pp.1317-1339, Elsevier
      • K. Shudo et al. 2011. A comprehensive dictionary of multiword expressions, Proceedings of the 49th Annual Meeting of ACL, Portland, pp.161-170
      • 首藤ほか, 2010. 日本語の複単語表現辞書:JDMWE, 自然言語処理, 17-5, pp.52-73, 言語処理学会

      等で報告されています。

      JMWELの主な特徴は、以下の通りです。

      • 網羅性が比較的高い
      • 構文構造を与えている
      • 構文構造として係り受けのほか、2種類の並列構造が明示されている
      • 例えば、「手を広げる」には「手を/外国にまで/広げる」のような内部修飾句(「外国にまで」)の可能位置を与え、表現の柔軟性を留保している
      • 「たった一つも・・・ない」のような呼応現象もデータ化している
      • 「猫に小判」、「ピンからキリまで」のような不完全慣用句も収録している
      • ひらがな見出しに対してカタカナ・漢字交じりの異表記形を網羅的に記載している
      • 不特定多数の出版物(新聞、雑誌、小説、辞書類など)、テレビ、ラジオの放送文から内省によって採集・整理されている

back
  • 辞書構成
    • 採録表現は多岐に亘るため、辞書は表現の種類によって以下のように分割管理・公開しています。以下で、1-11が表現の文法機能(相当品詞)で分けた部分辞書、12以降はトピック別の部分辞書です。

      • 日本語名詞性複単語表現機械辞書 JMWEL_nominal
        「無二の親友」、「あれやこれや」、「愚の骨頂」などの名詞句約23,500表現
      • 日本語動詞性複単語表現(1類)機械辞書 JMWEL_verbal (class 1)
        「手を結ぶ」、「意味がある」、「沽券に関わる」など、『名詞』+「が、を、に」+『動詞』の形式の動詞句約35,800表現
      • 日本語動詞性複単語表現(2類)機械辞書 JMWEL_verbal (class 2)
        「骨の髄までしゃぶる」、「ゼロからやり直す」、「目から鱗が落ちる」など1類、3類以外の動詞句約13,800表現
      • 日本語動詞性複単語表現(3類)機械辞書 JMWEL_verbal (class 3)
        「放り出す」、「飲んだくれる」、「秋めく」などの複合動詞句約3,700表現
      • 日本語形容詞性複単語表現機械辞書 JMWEL_adjective
        「頭が痛い」、「性格がきつい」、「途方も無い」などの形容詞句約4,800表現
      • 日本語形容動詞性(様態)複単語表現機械辞書 JMWEL_adjective verbal
        「願ったり叶ったり」、「足手纏い」、「判で押した様」などの形容動詞句約2,500表現
      • 日本語連用修飾複単語表現機械辞書 JMWEL_adverbial
        「思いもよらず」、「気を引き締めて」、「心を鬼にして」などの連用修飾句約16,100表現
      • 日本語連体修飾複単語表現機械辞書 JMWEL_adnominal
        「世に言う」、「筋の通った」、「得も言われぬ」などの連体修飾句約16,100表現
      • 日本語MWE辞書_談話指標表現編 JMWEL_discourse marker
        「そうは言っても」、「とはいえ」、「驚くべき事に」など、文頭の談話指標的、あるいは、文副詞的な約1,200表現
      • 日本語文末表現(終助詞、助動詞性表現)機械辞書 JMWEL_post-predicative
        「~かもしれない」、「~てもよろしい」、「~たところだ」、「~なければなりません」、「~てくれると助かるんですが」、「~で頂けませんでしょうか」など、拡張モダリティー等を与える助述表現、約4,400種
      • 日本語関係表現(格助詞、副助詞、接続助詞性表現)機械辞書 JMWEL_postpositional
        「~における」、「~のいかんにかかわらず」、「~の甲斐あって」、「~ところの」、「~を励みに」、「~を機に」、「~かの如く」、「~に従って」、「~もそこそこに」などの助詞的長単位表現約2,600種
      • 日本語慣用句機械辞書 JMWEL_idiom
        「油を売る」、「真っ赤なウソ」、「足が速い」などの約4,500表現
      • 日本語格言・諺・成句・決まり文句機械辞書 JMWEL_proverb saying cliche
        「河童の川流れ」、「義を見てせざるは勇無きなり」、「清水の舞台から飛び降りる」などの約4,000表現
      • 日本語オノマトペ表現機械辞書 JMWEL_onomatopoeic
        「グラリ」、「カラカラと」、「ガッツリ食う」などの擬声・擬態・擬音語、及び、それらを伴う典型表現、約13,000種
      • 用例文と英訳付き日本語複単語表現機械辞書 JMWEL_with J/E sample sentences
        日本語複単語表現約6500に対して用例文とその英訳(案)が記載されている。例えば、慣用句「油を売る」には「彼は勤務時間中に_油を売っ_てばかりいる。He is always_messing around_ while on his duty. 彼はよくあの居酒屋で_油を売る。He often_wastes time in idle talk_ at that pub.」など
      • 日本語の慣用的不完全句機械辞書 JMWEL_incomplete phrase
        「病は気から」、「棚からボタ餅」、「蟹の甲より年の功」、「石の上にも三年」などの日本語でよく使われる構文的に不完全な句(省略を含む句)約320表現
      • 日本語四字熟語機械辞書 JMWEL_four-character-word
        「切磋琢磨」、「支離滅裂」、「魑魅魍魎」などの約500表現
      • 日本語呼びかけ・応答・挨拶・独言・間投表現機械辞書 JMWEL_call response greeting monologue interjection
        「参ったなあ」、・・・「どういたしまして」、「あらマア」、「オット」、「本当?」などの約1,100表現で、<驚き>、<疑問>、<困惑>など、発話者の感情と対応付けられている
      • 日本語クランベリー型表現機械辞書 JMWEL_cranberry
        「しがみつく」、「後ろめたい」などのクランベリー型候補約40表現

back
  • 記載項目
    • 上記の各辞書には、原則として以下のa~fの情報が記載されています。

      • 区切り、表記情報
        辞書見出しは「ばかをみる」のように平仮名ベタ表記で与え、「ばか/を/みる」と要素単語に区切られること、そのうち、「ばか」は「バカ」、「馬鹿」、「莫迦」、「みる」は「見る」、「観る」と表記可能であることが記載されています。従って、「ばかをみる」、「バカをみる」、「馬鹿をみる」、「莫迦をみる」、「ばかを見る」、「バカを見る」、「馬鹿を見る」、「莫迦を見る」、「ばかを観る」、「バカを観る」、「馬鹿を観る」、「莫迦を観る」の12種の異表記が与えられていることになります。
      • 文法機能情報
        例えば、「墓穴を掘る」は全体として動詞句(VP)、「命の洗濯」は名詞句(NP)、「年がら年中」は副詞句(AdvP)の働きをする、など、表現全体の相当カテゴリーが記載されています。
      • 文法構造情報
        例えば、「目が点になる」は、目→が→なる、点→に→なる という依存構造を持つことを自立語は品詞記号、付属語はローマ字綴りを使い、カッコ[ ]で [[Nga][[Nni]V30]] と2項の句表示をしています。(Nは名詞、V30は動詞終止形の品詞記号です。) また、並列構造はカッコ< >、あるいは《 》で、並列要素はカッコ( )で表示しています。例えば、「泣く子と地頭」の構造は<([V40N])to(N)>と表わします。(V40は動詞連体形の品詞記号です。)
      • 内部修飾可否情報
        例えば、慣用句「油を売る」は「油をいつもの店で売る」のように内部修飾句をとり、ギャップが生じることがあります。このことをc.の構造記述中にアスタリスクで [[Nwo]*V30] のように記載します。この情報は、慣用句などをいつも単語化して扱う弊害を避け、より柔軟なギャップ付きフレーズ(不連続フレーズ)として扱うための枠組みです。
      • 文脈情報
        例えば、軽動詞構文「顔をする」は「困った顔をする」の様に文頭側に連体修飾句を要求します。また、副詞的表現「一つたりとも」は後方に「与えない」の様な否定句を要求します。この種の必須 (あるいは選好) 文脈が記載されています。
      • 連体、連用、動詞化情報
        本辞書は「独りよがり」、「針で突いた程」、「子供だまし」のような、物事の様態を表わす形容動詞的と言える表現を含んでおり、これらが連体、連用修飾句として用いられたり、動詞化して用いられたりする際の後続要素を記載しています。例えば、擬態語「フラフラ」は「フラフラの」、「フラフラした」、「フラフラとした」で連体修飾、「フラフラ」、「フラフラと」、「フラフラして」、「フラフラとして」で連用修飾、「フラフラする」、「フラフラとする」と動詞化すること、これに対して「グングン」は、「グングン」、「グングンと」の連用修飾形のみ存在することなどが記載されています。
      • 前接語情報
        文末表現(助動詞、終助詞性表現)辞書、および関係表現辞書では前接自立部の種別を規定する情報が記載されています。例えば、文末表現「てくれるといいのですが」には、「行っ/てくれるといいのですが」のように、動詞のタ接続連用形に後接することが記載されています。
      • 係り先情報
        関係表現辞書では係り先語の種別が記載されています。例えば、副助詞性表現「を機に」は、「転勤/を機に・・・引っ越した」の如く、動詞に係る表現であることが記載されています。
      • 意味タグ
        助動詞、終助詞性表現(の一部)に対しては、意味分類試案に基づく意味タグが付記されています。例えば、アスペクト表現「たところだ」にはタグ<完了直後>が与えられています。

back
  • 形態素情報
    • 従来の形態素処理とリンクする際の参考のため、上記の各辞書には以下のリストを添付します。

      1. 本辞書では複数形態素とみなしているが、ユーザー側の国語辞書では単一形態素とされている可能性のある表現、および、その逆の表現(辞書中で、アンダースコアで軽く区切っている表現)
      2. 本辞書に現れる接辞、接辞性語とその結合体
      3. 本辞書に現れる『サ変名詞』+「する、できる」形表現

back
  • 統計的性質
    • 本辞書の統計的性質を調べる次の調査を行ないました。 詳細は文献(T. Tanabe et al. 2014)に譲ります。

      • ランダムに選んだ日本経済新聞の1ページと最終ページの記事1,459文中、1,928か所にJMWELの収録表現が何らかの形態(活用変化形など)で使われていました。10文中に13か所程度という比率です。(このうち、6か所は上記辞書10、11の助詞・助動詞性表現です。) このように新聞記事に対してはJMWELは高いトークン・カバー率を持つことが分ります。
      • Web上の200億日本語文に現れるn-単語連鎖の出現頻度データLDC2009T08(Google社)と上記2.の動詞性表現(1類)とを比較した結果、『名詞+助詞(が、を、に)』から『動詞』に移る遷移確率が高いものほどJMWELに多く採録されており、同時に『名詞+助詞(が、を、に)』部は、続く『動詞』部のエントロピーの小さいものが選ばれているという傾向が認められ、表現採録の妥当性が推定できました。また、同調査からJMWEL収録表現の10%程度はGoogleのデータに表れていないことが分り、コーパスにおけるMWEのロングテール分布が覗われました。さらに、Web上に生起する動詞性表現(1類)タイプの約2.5%にすぎないJMWEL収録の動詞性表現(1類)が、トークンレベルではWeb上に生起する同形式表現の約14%をカバーしていることが分かりました。このようにJMWELにはかなり高頻度で生起する表現が選ばれています。

back
  • 応用領域など
    • 含意認識(recognition of entailment)
      JMWELでは、話者の意図、判断、あるいは聞き手に対する働きかけなどを表す文末の複単語表現が充実しています。例えば、JMWELには「速達で送って頂けたらよかったんですが」における文末の「て頂けたらよかったんですが」という複単語表現(広義のモダリティ表現)が収録されており、この表現の辞書記載項目から「聞き手は話者に速達で送らなかった」ことや「話者はそのことを不都合、あるいは不満に思っている」ことなどを推論することが可能です。 また、「あんなに食べるんじゃあなかった」では、収録表現「んじゃあなかった」から「話者はあんなに食べた」こと、「話者がそのことを後悔している」ことなどが推論可能です。
      このようにJMWELには含意認識や話者の意図解析に有効な助動詞、終助詞的MWE表現群が種別、構文機能、構文構造、意味タグなどとともに総括的に収録されています。

    • 文脈解析(discourse analysis)
      談話理解や文脈意味解析で極めて重要な表現に談話指標(discourse marker)と呼ばれる複単語表現がありますが、従来、日本語に限らず、体系的、網羅的な整理は行われていませんでした。例えば、文頭に置かれ、「これとは対照的に」のような意味で用いられる複単語表現「そこへ行くと」や「しかしながら」と似た意味で使われる複単語表現「とは言うものの」は、字義どおりに解析したのでは意味の適切な認定は難しいでしょう。
      JMWELにはこの種の複単語表現が種別、構文機能、構文構造、コンテクスト条件などとともに総括的に収録されています。これらを複単語表現として一括認識して文脈の意味構造を的確に捉えることは、機械翻訳や要約処理においても非常に重要だと思われます。

    • 日本語教育
      構成性に問題のあるJMWELの複単語表現は日本語学習者にとって理解しにくく、覚えにくい表現であると考えられます。また、確率的に絡みの強いJMWELの複単語表現も日本語学習を効率的に行うのに有効であると思われます。
      特にJMWELの慣用句、準慣用句、ことわざ、決まり文句、オノマトペ表現群は日本語の中級、上級学習者にとって有効な教材を提供します。

    • 構文解析
      意味的な纏まりをもつ表現ブロックを処理単位とする手法は構文・意味解析、機械翻訳などにおいて威力を発揮します。例えば、JMWELには「手に付かず」、「散歩に出る」、「事にする」がそれぞれ、副詞性表現(AdvP)、動詞性表現(VP)、助動詞性表現(Aux)として登録され、それぞれに前記c.の構造 [[Nni][V12zu]]、[[Nni]V30]、[[Nni]suru]が記載されています。また、「手に付かず」には前記e.の文頭側必須文脈条件として「が」格の後置詞句が指定されています。これらの情報によって入力文:「彼は仕事が手に付かず、散歩に出る事にした」の構文解析を行った場合の解析例を図1に示します。この入力文は8文節からなっていますが、JMWELを優先的に採用すれば、5文節からなる文であるかの如く取り扱うことができ、処理が簡素化されています。同時に、相当数の解析不正解(曖昧さ)が排除できていることは明らかです。

      図1 JMWELによる構文解析例
      図1 JMWELによる構文解析例

      また、前述の統計的性質から、JMWELは入力単語を予測しながら読み進み、解析木を効率よく生成していく予測的構文解析を実現するためにも有効な資源となります。むろん、誤ってMWEを認定する可能性もあるでしょうが、巧く設計すれば、妥当な解析に早期に導かれる確率は高いと思われます。

    • 機械翻訳
      また、この例の場合、JMWELの各表現に英訳情報、例えば、"as SUB is unable to get down to doing SUB's N"、"go out for a walk"、"decide to"を与えたと仮定すれば、図2のように上記の解析にほぼ並行した形で自然な(意味に忠実な)訳出を行うことが出来る可能性が在ります。

      図2 JMWELによる日英機械翻訳
      図2 JMWELによる日英機械翻訳

    • 仮名漢字変換
      収録表現数68,000程度であったJMWELの旧バージョンを当時市販されていたワープロソフトに組み込み、見出し、および、前記a.の単語間区切り情報と異表記情報を用いることにより、カナ漢字変換の初回正変換率を7ポイント程度向上させたことが報告されています。(参考文献3) 現状のJMWELでは収録表現、記載情報がより充実しているため、カナ漢字変換のさらなる精度向上にも寄与できると思われます。
      これらの情報は、漢字部に対するいわゆる「ルビ振り」にも直接的に応用可能です。

    • 音声認識
      JMWELには要素単語間に確率的な縛りが強く、ネイティブが一体的に発話(unitary utterance)する傾向の強いものが網羅されており、特に、次発生単語のパープレキシティーの小さい表現ほど優先的に採録されています。(T. Tanabe et al. 2014)また、見出しは表音の仮名表記となっており、「える」と「うる」、「よい」と「いい」など、同一表現であっても発音が異なれば別見出しとしているなど、音声認識処理への入口に配慮した構成となっています。

    • その他の利用領域
      JMWELのそれぞれの部分辞書は、新聞、雑誌などの実際の生データから長期間にわたって収集された表現を出来るだけ漏れなく収録したもので、記載情報と併せて国語学の各研究領域に何らかの有効な情報を提供すると思われます。

back
  • 公開情報
    • 現在、サンプルがダウンロードできる部分辞書が利用可能です。サンプル、解説書、形態素情報は前記の辞書名からダウンロードできます。入手方法等についてはこちらからお尋ねください。
    • 納入実績
      • 奈良先端科学技術大学院大学自然言語処理研究室
      • NEC中央研究所
      • NHK放送技術研究所 ほか

back
  • 参考文献
    • Church, K. "How Many Multiword Expressions do People Know?", ACL workshop on MWE, 2011, Portland.
    • Kudo T. and Kazawa H."Japanese Web N-gram Version 1, LDC2009T08, 2009
    • 小山泰男, 安武満佐子, 吉村賢治、首藤公昭 "連語データを利用した仮名漢字変換", 情報処理学会論文誌、 Vol.39, No.11, 1998
    • Sag, I. A., et al. "Multiword Expressions: A Pain in the Neck for NLP" Proceedings of the 3rd International Conference on Text Processing and Computational Linguistics, 2002
    • Corrigan R, et al. (eds) Formulaic Language Vol. 1 Distribution and Historical Change, 2009, John Benjamins Publishing Company
    • 首藤公昭 "日本語計算機処理のための大規模複単語表現辞書の開発" 電気科学技術奨励賞受賞記念講演、九州大学、2012
    • "広辞苑"、岩波書店
    • "大辞林"、三省堂
    • "大辞泉"、小学館
    • "成語林-故事ことわざ慣用句"、旺文社
    • "新明解国語辞典"、三省堂
    • "新和英大辞典"、研究社
    • "新英和大辞典"、研究社
    • "小学館ランダムハウス英和大辞典"、小学館
    • 金田一秀穂 "小学生のまんが慣用句辞典"、小学館
    • 金田一春彦、金田一秀穂 "新レインボー小学国語辞典"、学研
    • 宮地裕 "慣用句の意味と用法"、明治書院
    • 白石大二 "国語慣用句大辞典"、東京堂出版
    • 白石大二 "擬声語擬態語慣用句辞典"、東京堂出版
    • 田島諸介 "ことわざ故事・成語慣用句辞典"、梧桐書院
    • 竹田晃 "四字熟語・成句辞典"、講談社
    • 米川明彦、大谷伊都子 "日本語慣用句辞典"、東京堂出版
    • 小野正弘 "日本語オノマトペ辞典"、小学館
    • 国松昭 "故事・ことわざ辞典"、新星出版社

back
  • 主幹の研究履歴
    • 日本語の複単語表現MWEに関する研究
      • 首藤公昭、鶴丸弘昭、吉田将 1977 "日英機械翻訳のための述部処理システム"、電子通信学会論文誌、Vol.J60-D, No.10
        概要:日本語から英語への機械翻訳において、日本語文の文末に用いられるモダリティ、テンス、アスペクトなどを与える助動詞性、終助詞性表現を複単語表現MWEとして単語的に扱えば、これらの意味に関しては比較的簡単な意味を介した変換モデルで英語への機械翻訳が可能であることを実験的に示した。
      • Shudo K., Fujita T., and Yoshida S. 1978 "On the Processing of Annexational Expressions in Japanese", Proceedings of COLING78
        概要:日本語で頻繁に用いられる機能語性の複単語表現(functional MWE)を拡張機能語と捉え、これらを処理単位とすることが意味処理を考えるには重要であることを初めて指摘した。
      • 首藤公昭、楢原斗志子、吉田将 1979 "日本語の機械処理のための文節構造モデル"、電子通信学会論文誌、Vol. 62-D, No.12
        概要:長単位の拡張機能語(拡張付属語)、すなわち機能語性複単語表現(functional MWE)を組み入れた文法モデルとして文節構造モデルを提案した。拡張機能語のうち「における」、「によって」などの格助詞、接続助詞相当表現を関係表現、「なければならない」、「てもよい」などの助動詞、終助詞相当表現を助述表現と名付けた。この文節構造モデルは、拡張文節モデル、拡張文節構造モデルとも呼ばれる。
      • Shudo K., Narahara T., and Yoshida S. 1980 "Morphological Aspect of Japanese Language Processing", Proceedings of the COLING80
        概要:同上
      • 首藤公昭 1980 "文節構造モデルによる日本語の機械処理に関する研究"、福岡大学研究所報、Vol.45
        概要:拡張文節構造モデルの詳細をレキシコンも含めて公開した。
      • 首藤公昭、楢原斗志子 1983 "日本語の文構造のわく組みを与える表現―機能カテゴリーと接続ルール―"福岡大学総合研究所報、Vol. 63
      • 首藤公昭、楢原斗志子 1983 "日本語の文構造のわく組みを与える表現―構造的意味情報の整理―"福岡大学総合研究所報、Vol. 63
        概要:
        • 日常の文には国語辞典類に記載されていない極めて多数のMWEが用いられていること、これらの表現うち、文構造の枠組みを与える機能語性表現を特に重視すべきであること
        • この種の表現を単位とすればそれらの相互承接を含む文節の構造は有限オートマトンモデルで記述できること
        • その為にはこれらを150種程度の機能カテゴリに状態化すればよいこと
        • 関係表現、助述表現の意味はいずれも100~200種程度を考慮すべきであること
        などを実データとともに明らかにした。
      • 首藤公昭 1989 "日本語における固定的複合表現"、文部省科研費63101005報告書
        概要:約20,000個の日本語における概念語性複単語表現(conceptual MWE)、すなわち慣用句、決まり文句等を収集し、表記、構文機能を記載した辞書を開発・公開した。
      • Koyama Y., Yasutake M., Yoshimura K., and Shudo K. 1998 "Large Scale Collocation Data and Their Application to Japanese Word Processor Technology", Proceedings of the COLING98
        概要:約68,000個の日本語における複単語表現MWEを利用すれば、市販ワープロ(エイ・アイ・ソフト社WXG-Ver.2.05)の仮名漢字変換における初回変換正解率が約7ポイント上昇することを実験によって示した。
      • 小山泰男、安武満佐子、吉村賢治、首藤公昭 1998 "連語データを利用した仮名漢字変換"、情報処理学会論文誌、Vol. 39、No.11
        概要:約68,000個の日本語における複単語表現MWEを利用すれば、市販ワープロ(エイ・アイ・ソフト社WXG-Ver.2.05)の仮名漢字変換における初回変換正解率が約7ポイント上昇することを実験によって示した。
      • 岩瀬修、森元逞、首藤公昭 2000 "連語を組み込んだ統計言語モデル"、信学技法、NLC2000-65
        概要:音声認識を意識し、約48,000個の複単語表現MWEを組み込んだ統計言語モデルを提案し、有効性と問題点を検討した。
      • Shudo, K., Tanabe, T., Takahashi, M., and Yoshimura, K. 2004 "MWEs as Non-Propositional Content Indicators", Proceedings of ACL Workshop on Multiword Expressions: Integrating Processing: 31–39
        概要:日本語の複単語表現MWEのうち、非命題的意味内容Non-propositional Contentを与える表現とその意味について考察し、いくつかの意味論的、語用論的知見を与えた。
      • 首藤公昭、 田辺利文 2010 "日本語複単語表現辞書:JMWEL"、自然言語処理、Vol.17, No.5
        概要:日本語における約104,000個の複単語表現MWEを収録した辞書の概要を紹介し、その有効性を論じた。
      • Shudo K., Kurahone A., and Tanabe T. 2011 "A Comprehensive Dictionary of Multiword Expressions", Proceedings of the 49th Annual Meeting of the ACL.
        概要:(日本語複単語表現辞書:JMWEL)の主として検証部分を詳細化して解説した。
    • 日本語文の形態素解析に関する研究
      • Wikipedia(形態素解析)
      • Shudo K., Fujita T., and Yoshida S. 1978 "On the Processing of Annexational Expressions in Japanese", Proceedings of the COLING78
        概要:日本語で頻繁に用いられる機能語性の複単語表現(functional MWE)を拡張機能語と捉えて文節構造を考えることが意味を考えた形態素処理で重要であることを指摘した。
      • 首藤公昭、楢原斗志子、吉田将 1979 "日本語の機械処理のための文節構造モデル"、電子通信学会論文誌、Vol. 62-D, No.12
        概要:長単位の拡張機能語(拡張付属語)、すなわち機能語性複単語表現(functional MWE)を組み入れた文法モデルとして文節構造モデルを提案した。拡張機能語のうち「における」、「によって」などの格助詞、接続助詞相当表現を関係表現、「なければならない」、「てもよい」などの助動詞、終助詞相当表現を助述表現と名付けた。この文節構造モデルは、拡張文節モデル、拡張文節構造モデルとも呼ばれる。
      • 首藤公昭 1980 "文節構造モデルによる日本語の機械処理に関する研究"、福岡大学研究所報、Vol.45
        概要:拡張文節構造モデルの詳細をレキシコンを含めて公開した。
      • Shudo K., Narahara T., and Yoshida S. 1980 "Morphological Aspect of Japanese Language Processing", Proceedings of the COLING80
        概要:上記に同じ
      • 小山泰男、安武満佐子、吉村賢治、首藤公昭 1998 "連語データを利用した仮名漢字変換"、情報処理学会論文誌、Vol. 39、No.11
        概要:約68,000個の日本語における複単語表現MWEを利用すれば、市販ワープロ(エイ・アイ・ソフト社WXG-Ver.2.05)の仮名漢字変換における初回変換正解率が約7ポイント上昇することを実験によって示した。
    • 日本語古文の形態素解析に関する研究
      • 安武満佐子、吉村賢治、首藤公昭 1995 "古文の形態素解析システム"、福岡大学工学集報、Vol.54
        概要:古典「徒然草」の初めから100段までを対象に文の形態素解析を行うシステムを開発して比較的良好な結果を得、残る課題について考察した。
    • 日本語の文末表現とモダリティーに関する研究
      • 首藤公昭、鶴丸弘昭、吉田将 1977 "日英機械翻訳のための述部処理システム"、電子通信学会論文誌、Vol.J60-D, No.10
        概要:日本語から英語への機械翻訳において、日本語文の文末に用いられるモダリティ、テンス、アスペクトなどを与える助動詞性、終助詞性表現を複単語表現MWEとして単語的に扱えば、これらの意味に関しては比較的簡単な意味を介した変換モデルで英語への機械翻訳が可能であることを実験的に示した。
      • Shudo, K., Tanabe, T., Takahashi, M., and Yoshimura, K. 2004 "MWE as Non-Propositional Content Indicators". Proceedings of ACL Workshop on Multiword Expressions: Integrating Processing: 31–39
        概要:日本語の複単語表現MWEのうち、非命題的意味内容(Non-propositional Content)を与える表現とその意味について考察し、いくつかの意味論的、語用論的知見を与えた。
    • 日本語文の並列構造に関する研究
      • 首藤公昭、吉村賢治、津田健蔵 1985 "並列を含む日本語文の構造について"情報処理学会第30回全国大会論文集
        概要:並列構造は文の解析機の大きな負担となるが、機械処理の立場からはあまり研究されてこなかった。日本語文の並列構造を含んだ一般的なwell-formednessを考察する。
      • 首藤公昭、吉村賢治、津田健蔵 1986 "日本語技術文における並列構造"、情報処理学会論文誌、Vol.27, No.2
        概要:並列構造の正しい認定は構文解析における一つのネックとなっている。技術雑誌の記事からランダムにとった約10,000文(約220,000語)を対象に調査した並列構造について報告する。
    • 日本語文の構文解析法に関する研究
      • 首藤公昭、楢原斗志子、津田健蔵 1982 "意味理解を目的とした日本語の構文解析アルゴリズム"、福岡大学工学集報、Vol.28
        概要:日本語文における文節間の意味的関係を直接的に捉える基本的な係り受け解析法を提案する。
    • 漢字語の意味構造に関する研究
      • 首藤公昭 1990 "日本語の意味処理と漢字"、日本語学、1990年11月号、明治書院
        概要:文構成の意味上の単位をどのようにとらえるかは機械処理において重要なテーマである。慣用句、決まり文句などの長単位表現は、近年、複単語表現MWEとしてその重要性が認識されてきたが、これに対して、日本語におけるもっとも短単位の表現としての一漢字も未知語処理等において重要である。このような観点から漢字語の意味の構成性を論じる。
    • 機械翻訳に関する研究
      • 首藤公昭 1973 "専門分野を対象とした日英機械翻訳について"、情報処理学会論文誌、Vol.14, No.9
        概要:後に格フレームと広く呼ばれるようになった述語に対する格構造パタンを意味的基本構文と呼び、これと名詞シソーラスを用いた新しい機械翻訳のパラダイムを提案した。
      • 首藤公昭、鶴丸弘昭、吉田将 1977 "日英機械翻訳のための述部処理システム"、電子通信学会論文誌、Vol.J60-D, No.10
        概要:日本語から英語への機械翻訳において、日本語文の文末に用いられるモダリティ、テンス、アスペクトなどを与える助動詞性、終助詞性表現を複単語表現MWEとして単語的に扱えば、これらの意味に関しては比較的簡単な意味を介した変換モデルで英語への機械翻訳が可能であることを実験的に示した。
      • 首藤公昭 1981 "テキサス大学における機械翻訳"、NL研究会資料、28-6
        概要:1960年代からテキサス大学言語学研究センター(LRC)で行われてきた英独機械翻訳システムMETALの概要を紹介した。
    • 格助詞の意味の曖昧さ解消に関する研究
      • 田辺利文、首藤公昭 2009 "格助詞「に」の深層格推定―格助詞の意味再考―", NL研究会報告
        概要:格助詞の意味の正しい認識は従来十分には実現していないことは市販翻訳ソフトなどの出力結果から十分推定される。特に格助詞「で」、「に」の用法は極めて多彩で自動判定は容易ではない。ここでは名詞と動詞(形容詞)の2項のみの情報からどれくらいの意味の曖昧さ除去が可能かを改めて検証した。43種類の「に」の意味が平均3個程度まで絞り込める処理の枠組みを提案した。
    • 日本語文の意味の類似性に関する研究
      • 首藤公昭、小山泰男、高橋雅仁、吉村賢治 1999 "依存構造に基づく言語表現の意味的類似度"、信学技法、TL99-28
        概要:日本語における関係表現の意味の類似度、助述表現の意味の類似度および拡張文節間の依存構造の類似性に基づいて文の意味の類似度を判定する方法を考察する。
      • Shudo, K., Tanabe, T., Takahashi, M., and Yoshimura, K. 2004 "MWEs as Non-Propositional Content Indicators". Proceedings of ACL Workshop on Multiword Expressions: Integrating Processing: 31–39
        概要:日本語の複単語表現MWEのうち、非命題的意味内容Non-propositional Contentを与える表現とその意味について考察し、いくつかの意味論的、語用論的類似性に関する知見を与えた。

back
  • 主幹のプロフィール
    • 1943年1月/佐賀県武雄市(旧杵島郡武雄町)生れ
    • 1970年3月/九州大学大学院工学研究科電子工学専攻博士課程満退
    • 1970年4月/福岡大学工学部電子工学科 講師
    • 2013年3月/同電子情報工学科、同大学院電子情報システム工学専攻、情報通信システム工学専攻を教授で退職
    • 1980年9月-1981年9月/テキサス大学言語研究センター(LRC)客員研究員
    • 趣味は自動車整備、機械弄り、オーディオ

back

Contents


日本語の特異・典型フレーズ大規模レキシコンを完成
—新世代の自然言語処理に向けて—