UnitedQA: A Hybrid Approach for Open Domain Question Answering

2022 1/16

2022年1月16日 2022年1月16日

読んだ論文
https://arxiv.org/abs/2101.00178

どんなもの？

オープンドメインQAのリーダーには抽出型リーダーと生成型リーダーがある。
最近の論文のほとんどは、どちらか一方のリーダーしか考慮していない。
本論文では、両方の強みを活かしたハイブリッドなアプローチを提案した。
NaturalQuestionsとTriviaQAでsotaを達成した。

どんな課題や問題点を解決しようとしたの？

これまでの論文では、抽出型リーダーと生成型リーダーのどちらか一方のみを使用する研究がほとんどだった。
この2つのリーダーは異なる回答推論戦略をとっているため、ハイブリッドにすることでよりよい精度が得られるだろうと仮説を立てた。
仮説が正しいことを実証し、新たなアンサンブル手法UnitedQAを提案した。

技術の手法は？

retriever

モデル

その他

top-100を抽出

抽出型リーダー(UnitedQA-E)

特徴抽出

ELECTRA

目的関数

目的関数 = マルチパッセージレベルのHardEM + 単一パッセージレベルの周辺対数尤度
- 弱教師データに対応するため多目的最適化を導入する。
- \(L_{EXT} = \log{\max_{(i,j)}{P_s^M(i,j)}} + \frac{1}{K}\sum_k \log{\sum_{(i^k,j^k)} P_s^P(i^k,j^k)}\)
ノイズに強くするために正則化を行う(Posterior Differential Regularization)
- https://aclanthology.org/2021.naacl-main.85/
- \(L_{PDR} = D(P_b(i)|P_b^{\prime}(i)) + D(P_e(j)|P_e^{\prime}(j))\)
最終的な目的関数
- \(L^{1} = L_{EXT} + \gamma L_{PDR}\)

生成型リーダー (UnitedQA-G)

特徴抽出

目的関数

sequence-to-sequence objecticve
- \(L(x,y;\theta) = \sum_i^N \log{P_\theta (y_i|x,y_{1:i-1})}\)
  - \(\theta\)はモデルパラメータ
adversarial loss
- \(L_{AT} (x,y;\theta) = L(x,y;\hat{\theta}) \)
最終的な目的関数
- \(L^{2} = \alpha L(x,y;\theta) + \beta L_{AT} (x,y;\theta)\)
  - 今回の検証ではα=0.5、β=0.5

リーダーのアンサンブル

\(arg\max_{y \in Y} \tau\sum_{m=1}^M 1(y,y_m^E) + \delta\sum_{n=1}^N 1(y,y_n^G)\)
- τ=0.6, δ=0.4
- \(1(y,y^{\prime})\): indicator function

どんな実験を行った？

用いたパッセージ

2018年12月20時点の英語版wikipediaを100語のパッセージに分割

用いたデータセット

NaturalQuestions
TriviaQA
- train/dev/testingは下のDPR論文と同じ手法で分割
- https://arxiv.org/abs/2004.04906

用いたretriever

NaturalQuestionでは、DPR(single)をretrieverで用いた。
TriviaQAでは、BM25+DPR(multi)をretrieverで用いた。

設定パラメータ

最適化手法: Adam, warmup ratio=0.1
epochs
- 抽出型リーダー
  - 8 epochs, learning rate=2e-5, batch size=16(questions)
- 生成型リーダー
  - 10 epochs, learning rate=1e-4, batch size=64(questions)
retrieve passages: 100
γ={4, 8}

その他

GPU
- base model: 8個のV100-32GB
- large model: 16個のV100-32GB
dev setで最適なパラメータを設定したのち、test setをランダムシードで3回試行しmedianを測定した。
dev setで3つの抽出型リーダーと3つの生成型リーダーの中から、3つのリーダーの組み合わせを選択した。
- どのような基準で選択したのかはわからない…

どんな結果が得られたの？

検証

抽出型リーダーのみを利用したモデルでもT5-FID_base並みの精度が出た。
ハイブリッドモデルではsotaを達成した。
- 同種類(抽出型リーダー同士、生成型リーダー同士)のアンサンブルでは微増にとどまった。

どういう知見が得られたの？

抽出型リーダー

多目的最適化が有用
PDRが有用
- ノイズが多い学習データでの学習には適切な正則化が重要である。
ELECTRAはBERTよりも、ノイズが多い学習データでも良い文章表現が得られる。

生成型リーダー

adversarial training、decoder attention biasともに僅かではあるが効果があった。

retrieverの抽出パッセージ数の比較

抽出パッセージ数を増やすと
- retrieverのrecallが増加
- end to end QAのexact matchも増加
  - 増加割合: 生成型リーダー > 抽出型リーダー
    - retrieverがより多くのパッセージを抽出しても、抽出型リーダーはその恩恵を受けにくい。
    - すべてのパッセージをベクトル空間で連結することで、生成型リーダーは抽出型リーダーよりも効果的にノイズを除去できている。
      - どういうこと？

問題別評価

回答のみoverlapしている問題と、質問、回答ともにoverlapしていない問題はスコアが低い。

よかったらシェアしてね！

URL Copied!

URL Copied!

この記事を書いた人

自然言語処理と推薦システムに興味があります。

コメント一覧（13件）

sans ordonnance kamagra medicament generique より:

2025年8月17日 6:15 PM

comparer les prix de kamagra dans les principales pharmacies

acheter générique kamagra en ligne canada
get enclomiphene generic next day delivery より:

2025年8月17日 6:22 PM

buy enclomiphene canada price

buy enclomiphene buy from canada
order androxal purchase online safely より:

2025年8月17日 8:34 PM

buy androxal buy for cheap

cheap androxal generic uae
get flexeril cyclobenzaprine canada how to buy より:

2025年8月17日 9:31 PM

cheapest buy flexeril cyclobenzaprine purchase in canada

order flexeril cyclobenzaprine cheap no prescription
buy cheap dutasteride us overnight delivery より:

2025年8月17日 10:30 PM

discount dutasteride sites

where dutasteride australia
cheapest buy gabapentin buy for cheap より:

2025年8月17日 10:50 PM

ordering gabapentin buy in the uk

cheap gabapentin generic in us
discount fildena price in us より:

2025年8月18日 12:42 AM

buying fildena price singapore

purchase fildena generic effectiveness
how to buy itraconazole generic pharmacy canada より:

2025年8月18日 12:03 PM

order itraconazole australia online no prescription

how to buy itraconazole generic in canada
buy staxyn toronto canada より:

2025年8月18日 12:36 PM

order staxyn american express canada

cheapest buy staxyn buy uk no prescription
online order avodart without a rx より:

2025年8月18日 12:50 PM

discount avodart generic name

buy cheap avodart cost new zealand
buy rifaximin cheap usa より:

2025年8月18日 3:21 PM

ordering rifaximin generic sale

ordering rifaximin australia price
cheapest xifaxan substitute sildenafil より:

2025年8月18日 3:27 PM

how to buy xifaxan generic available

order xifaxan uk how to get
není nutné rx pro nákup kamagra より:

2025年8月18日 5:14 PM

nejlepší cena kamagra

obecný kamagra ve velké británii

UnitedQA: A Hybrid Approach for Open Domain Question Answering

どんなもの？

どんな課題や問題点を解決しようとしたの？

技術の手法は？

retriever

モデル

その他

抽出型リーダー(UnitedQA-E)

特徴抽出

目的関数

生成型リーダー (UnitedQA-G)

特徴抽出

目的関数

リーダーのアンサンブル

どんな実験を行った？

用いたパッセージ

用いたデータセット

用いたretriever

設定パラメータ

その他

どんな結果が得られたの？

検証

どういう知見が得られたの？

抽出型リーダー

生成型リーダー

retrieverの抽出パッセージ数の比較

問題別評価

この記事を書いた人

関連記事

コメント

コメント一覧 （13件）

コメント一覧（13件）