(論文メモ) Improving Hypernymy Detection with an Integrated Path-based and Distributional Method (ACL2016)

Table of contents

title
- Improving Hypernymy Detection with an Integrated Path-based and Distributional Method
author
- VeredShwartz, Yoav Goldberg, Ido Dagan
  - Bar-Ilan University, Israel
venue
- ACL 2016
url
その他
- ACL 2016 Outstanding Paper Award

単語の組(x,y)に対して、yがxの上位語であるかどうかを推定
- 例: x = トム・クルーズ, y = 俳優 -> yはxの上位語である
- 質問応答などで有用な応用がある

この手法は以下の図で大体説明できる。

提案手法(図は論文より引用)

既存のデータセットを拡張し、これを用いて精度、再現率、F1値で評価し、ベースライン手法と比較した
データセット
- 既存の上位語下位語関係データセットは規模が小さく提案手法では上手く学習できないため、distant supervision (Riedel et al, NAACL 2013) を用いて拡張
- 具体的には、WordNet、DBPedia、Wikidata、Yagoに含まれる特定の関係のみを用いた(Table1参照)
  - 約7万ペアの正解データを収集した
ベースライン手法
- 構文解析木ベースの手法
  - Snow (Snow et al., NIPS 2004): 構文解析木ベースの古典的な手法
  - Snow + Gen: Snowと構文木のパターンを一般化する手法(Nakashole et al., EMNLP & CoNLL 2012)の組み合わせ
- 分散表現ベース
  - SLQS (Santus et al., EACL 2014)
  - Best supervised: 事前学習した単語ベクトルモデルと、いくつかの分散表現ベース手法を競わせた
結果

結果(図は論文より引用)

random split は作成した正解データをそのままランダムに分割
lexical split は (Levy et al., NAACL 2015)で指摘された lexical memorization という問題を避けるために提案された分け方
- lexical memorization はざっくり言うと、animal みたいな多くの単語の上位語になる単語は、単語間の関係とは無関係に上位語と判定されてしまいやすいという問題
- つまり、任意の単語xに対して、(x,animal)というペアではanimalはxの上位語と判定されてしまう
提案手法(HypeNET)がstate-of-the-artになった

エラー分析
- False Positive (上位語でないのに上位語と判断した場合): Table 6
  - 約20%が同義語関係、約30%が下位語関係など
- False Negative (上位語であるのに上位語でないと判断した場合)
  - 8割が(x,y)の共起が25回以下(True positiveの平均共起回数は99.7回)