久久久亚洲欧洲日产国码a,日本亚洲一区二区精品久久,国产不卡视频一区二区三区四区

與騰訊、哈工大同臺(tái)競技，深蘭獲自然語言處理領(lǐng)域國際頂會(huì)NAACL2021冠軍

2021-06-08

2021年6月6日-11日，自然語言處理（NLP）領(lǐng)域的頂級(jí)會(huì)議NAACL在線上舉辦。深蘭科技DeepBlueAI團(tuán)隊(duì)參加了Multi-Hop Inference Explanation Regeneration (TextGraphs-15) 共享任務(wù)比賽，并獲得了第一，該方案多用于科學(xué)知識(shí)問答等領(lǐng)域。同賽道競技的還有騰訊、哈爾濱工業(yè)大學(xué)組成的團(tuán)隊(duì)以及新加坡科技設(shè)計(jì)大學(xué)團(tuán)隊(duì)等。

undefined

圖1 成績排名

NAACL全稱為 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies，與ACL、EMNLP并稱NLP領(lǐng)域的三大頂會(huì)。

冠軍方案分享

任務(wù)介紹

多條推理（Multi-Hop Inference）任務(wù)是結(jié)合多條信息去解決推理任務(wù)，如可以從書中或者網(wǎng)絡(luò)上選擇有用的句子，或者集合一些知識(shí)庫的知識(shí)去回答他人提出的問題。如下圖所示，如需回答當(dāng)前問題，要結(jié)合圖中所示三種信息才能完成推理，得到正確的答案。而解釋再生（Explanation Regeneration）任務(wù)是多條推理任務(wù)的基礎(chǔ)，其目的是構(gòu)建科學(xué)問題的解釋，每個(gè)解釋都表示為一個(gè)“解釋圖”，一組原子事實(shí)（每個(gè)解釋包含1-16個(gè)，從9000個(gè)事實(shí)的知識(shí)庫中提取），它們一起構(gòu)成了對(duì)回答和解釋問題進(jìn)行推理解析的詳細(xì)解釋。

undefined

圖2 任務(wù)示例

對(duì)于當(dāng)前任務(wù)，舉辦方將其定義為一個(gè)排序任務(wù)，輸入的是問題及其對(duì)應(yīng)的正確答案，要求系統(tǒng)能夠?qū)μ峁┑陌虢Y(jié)構(gòu)化知識(shí)庫中的原子事實(shí)解釋進(jìn)行排序，以便排名靠前的原子事實(shí)解釋能夠?yàn)榇鸢柑峁└釉敿?xì)和確切的說明。

數(shù) 據(jù)

此共享任務(wù)中使用的數(shù)據(jù)包含從 AI2 推理挑戰(zhàn) (ARC) 數(shù)據(jù)集中提取的大約 5,100 道科學(xué)考試題，以及從 WorldTree V2.1[2] 解釋中提取的正確答案的事實(shí)解釋語料庫，并在此基礎(chǔ)上增加了專家生成的相關(guān)性評(píng)級(jí)。支持這些問題及其解釋的知識(shí)庫包含大約 9,000 個(gè)事實(shí)，知識(shí)庫既可以作為純文本句子（非結(jié)構(gòu)化）也可以作為半結(jié)構(gòu)化表格使用。

方案

該任務(wù)為一個(gè)排序任務(wù)，具體表現(xiàn)為給定問題和答案，將知識(shí)庫中的9,000個(gè)原子事實(shí)解釋進(jìn)行排序，評(píng)價(jià)方式為NDCG。方案主要由召回和排序兩部分組成，第一步先召回Top-K（k> 100）個(gè)解釋，第二步對(duì)召回的Top-K個(gè)解釋進(jìn)行排序。針對(duì)召回和排序任務(wù)，如果直接采用 Interaction-Based（交互型，即問題文本和事實(shí)解釋在模型中存在信息交互）類型的網(wǎng)絡(luò)，計(jì)算量將巨大，因此交互型網(wǎng)絡(luò)在當(dāng)前的任務(wù)中無法使用，團(tuán)隊(duì)最終采用了向量化檢索的方式進(jìn)行排序。

為了提取更深的語義信息生成比較好的特征向量，團(tuán)隊(duì)沒有采用TF-IDF、BM25、DSSM[3]等常用的排序模型，而是采用了當(dāng)前比較流行的預(yù)訓(xùn)練模型作為特征提取器，結(jié)合Triplet loss[4]訓(xùn)練了一個(gè)Triplet Network來完成向量化排序，其中在召回部分和排序部分均采用Triplet Network。

undefined

圖3 Triplet loss

undefined

模型

針對(duì)當(dāng)前任務(wù)，如下圖所示，錨點(diǎn)（Anchor）樣本為問題和答案連接的文本，正樣本（Positive）為問題對(duì)應(yīng)的解釋文本，負(fù)樣本（Negative）為其他隨機(jī)選擇與正樣本不同的解釋文本，其中他們?nèi)齻€(gè)輸入共享一套預(yù)訓(xùn)練語言模型（Pre-trained language model ：PLM）參數(shù)。訓(xùn)練時(shí)將上述三個(gè)文本輸入到PLM模型中，選取PLM模型的所有Token 向量平均作為輸出，將三個(gè)輸入向量經(jīng)過Triplet Loss 得到損失值完成模型的訓(xùn)練。

undefined

圖4 模型圖

負(fù) 采樣

為了更好地訓(xùn)練模型，團(tuán)隊(duì)在召回階段采用了三種不同的負(fù)采樣方式：

全局隨機(jī)負(fù)采樣，即在9,000個(gè)解釋文本中隨機(jī)選取一個(gè)不是正樣本的樣本作為負(fù)樣本;

Batch內(nèi)負(fù)采樣，即在當(dāng)前Batch內(nèi)選取其他問題的對(duì)應(yīng)的解釋正樣本，作為當(dāng)前問題的負(fù)樣本;

相近樣本負(fù)采樣，在同一個(gè)表中隨機(jī)選取一個(gè)樣本作為負(fù)樣本，因?yàn)橥粋€(gè)表中的樣本比較相近。

在排序階段同樣采取了三種不同的負(fù)采樣方式：

Top-K 隨機(jī)負(fù)采樣，即在在召回的Top-K個(gè)樣本中隨機(jī)選取一個(gè)負(fù)樣本；

Batch內(nèi)負(fù)采樣，和召回階段相同；

Top-N 隨機(jī)負(fù)采樣，為了強(qiáng)化前面一些樣本的排序效果，增大了前面N個(gè)樣本的采樣概率（N遠(yuǎn)遠(yuǎn)小于K）。

實(shí) 驗(yàn)

團(tuán)隊(duì)采用了兩種預(yù)訓(xùn)練模型RoBERTa[5] 和ERNIE 2.0[6]，并將兩個(gè)模型的預(yù)測結(jié)果進(jìn)行了融合。在召回和排序階段，采用了同樣的參數(shù)，主要參數(shù)如采用三種負(fù)采樣方式，每種負(fù)采樣方式選取16個(gè)樣本，最終的batch size為48，epoch為15。同時(shí)，使用了Adam優(yōu)化器并采用了學(xué)習(xí)率衰減策略，從1e-5衰減到0。

團(tuán)隊(duì)分別評(píng)測了NDCG @100、NDCG @500、NDCG @1000、NDCG @2000的結(jié)果，最終效果如下表所示，其中Baseline為TFIDF模型、Recall為召回階段、Re-ranker為針對(duì)召回的結(jié)果重新排序的結(jié)果。從表中可以看出基于預(yù)訓(xùn)練模型的方法對(duì)比Baseline有著很大的提升，同時(shí)重排也有著顯著的提升，同時(shí)從排行榜中可以看出DeepBlueAI團(tuán)隊(duì)的模型對(duì)比他人也有著較大的領(lǐng)先。

undefined

Table 1 The final results compared with different models

參考文獻(xiàn)

[1] Clark P, Cowhey I, Etzioni O, et al. Think you have solved question answering? try arc, the ai2 reasoning challenge[J]. arXiv preprint arXiv:1803.05457, 2018.

[2] Xie Z, Thiem S, Martin J, et al. Worldtree v2: A corpus of science-domain structured explanations and inference patterns supporting multi-hop inference[C]//Proceedings of The 12th Language Resources and Evaluation Conference. 2020: 5456-5473.

[3] Huang, Po-Sen, et al. "Learning deep structured semantic models for web search using clickthrough data." *Proceedings of the 22nd ACM international conference on Information & Knowledge Management*. 2013.

[4] Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." *Proceedings of the IEEE conference on computer vision and pattern recognition*. 2015.

[5] Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.

[6] Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understanding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

新聞推薦

科研榮譽(yù)

與騰訊、哈工大同臺(tái)競技，深蘭獲自然語言處理領(lǐng)域國際頂會(huì)NAACL2021冠軍