UnitedQA: A Hybrid Approach for Open Domain Question Answering

読んだ論文
https://arxiv.org/abs/2101.00178

目次

どんなもの?

  • オープンドメインQAのリーダーには抽出型リーダーと生成型リーダーがある。
  • 最近の論文のほとんどは、どちらか一方のリーダーしか考慮していない。
  • 本論文では、両方の強みを活かしたハイブリッドなアプローチを提案した。
  • NaturalQuestionsとTriviaQAでsotaを達成した。

どんな課題や問題点を解決しようとしたの?

  • これまでの論文では、抽出型リーダーと生成型リーダーのどちらか一方のみを使用する研究がほとんどだった。
  • この2つのリーダーは異なる回答推論戦略をとっているため、ハイブリッドにすることでよりよい精度が得られるだろうと仮説を立てた。
  • 仮説が正しいことを実証し、新たなアンサンブル手法UnitedQAを提案した。

技術の手法は?

retriever

モデル

  • DPR

その他

  • top-100を抽出

抽出型リーダー(UnitedQA-E)

特徴抽出

  • ELECTRA

目的関数

  • 目的関数 = マルチパッセージレベルのHardEM + 単一パッセージレベルの周辺対数尤度
    • 弱教師データに対応するため多目的最適化を導入する。
    • \(L_{EXT} = \log{\max_{(i,j)}{P_s^M(i,j)}} + \frac{1}{K}\sum_k \log{\sum_{(i^k,j^k)} P_s^P(i^k,j^k)}\)
  • ノイズに強くするために正則化を行う(Posterior Differential Regularization)
    • \(L_{PDR} = D(P_b(i)|P_b^{\prime}(i)) + D(P_e(j)|P_e^{\prime}(j))\)
  • 最終的な目的関数
    • \(L^{1} = L_{EXT} + \gamma L_{PDR}\)

生成型リーダー (UnitedQA-G)

特徴抽出

  • T5

目的関数

  • sequence-to-sequence objecticve
    • \(L(x,y;\theta) = \sum_i^N \log{P_\theta (y_i|x,y_{1:i-1})}\)
      • \(\theta\)はモデルパラメータ
  • adversarial loss
    • \(L_{AT} (x,y;\theta) = L(x,y;\hat{\theta}) \)
  • 最終的な目的関数
    • \(L^{2} = \alpha L(x,y;\theta) + \beta L_{AT} (x,y;\theta)\)
      • 今回の検証ではα=0.5、β=0.5

リーダーのアンサンブル

  • \(arg\max_{y \in Y} \tau\sum_{m=1}^M 1(y,y_m^E) + \delta\sum_{n=1}^N 1(y,y_n^G)\)
    • τ=0.6, δ=0.4
    • \(1(y,y^{\prime})\): indicator function

どんな実験を行った?

用いたパッセージ

  • 2018年12月20時点の英語版wikipediaを100語のパッセージに分割

用いたデータセット

用いたretriever

  • NaturalQuestionでは、DPR(single)をretrieverで用いた。
  • TriviaQAでは、BM25+DPR(multi)をretrieverで用いた。

設定パラメータ

  • 最適化手法: Adam, warmup ratio=0.1
  • epochs
    • 抽出型リーダー
      • 8 epochs, learning rate=2e-5, batch size=16(questions)
    • 生成型リーダー
      • 10 epochs, learning rate=1e-4, batch size=64(questions)
  • retrieve passages: 100
  • γ={4, 8}

その他

  • GPU
    • base model: 8個のV100-32GB
    • large model: 16個のV100-32GB
  • dev setで最適なパラメータを設定したのち、test setをランダムシードで3回試行しmedianを測定した。
  • dev setで3つの抽出型リーダーと3つの生成型リーダーの中から、3つのリーダーの組み合わせを選択した。
    • どのような基準で選択したのかはわからない…

どんな結果が得られたの?

検証

  • 抽出型リーダーのみを利用したモデルでもT5-FID_base並みの精度が出た。
  • ハイブリッドモデルではsotaを達成した。
    • 同種類(抽出型リーダー同士、生成型リーダー同士)のアンサンブルでは微増にとどまった。

どういう知見が得られたの?

抽出型リーダー

  • 多目的最適化が有用
  • PDRが有用
    • ノイズが多い学習データでの学習には適切な正則化が重要である。
  • ELECTRAはBERTよりも、ノイズが多い学習データでも良い文章表現が得られる。

生成型リーダー

  • adversarial training、decoder attention biasともに僅かではあるが効果があった。

retrieverの抽出パッセージ数の比較

  • 抽出パッセージ数を増やすと
    • retrieverのrecallが増加
    • end to end QAのexact matchも増加
      • 増加割合: 生成型リーダー > 抽出型リーダー
        • retrieverがより多くのパッセージを抽出しても、抽出型リーダーはその恩恵を受けにくい。
        • すべてのパッセージをベクトル空間で連結することで、生成型リーダーは抽出型リーダーよりも効果的にノイズを除去できている。
          • どういうこと?

問題別評価

  • 回答のみoverlapしている問題と、質問、回答ともにoverlapしていない問題はスコアが低い。
よかったらシェアしてね!

この記事を書いた人

自然言語処理と推薦システムに興味があります。

コメント

コメント一覧 (13件)

目次
閉じる