“三冠一亞”成最大贏家!深蘭首次參加CCKS 2020彰顯技術硬實力
2020-11-12捷報頻傳,三冠一亞!11月12-15日,CCKS 2020(國內知識圖譜和語義計算等領域的核心學術會議)在江西南昌成功舉行,深蘭科技DeepBlueAI團隊首次參加即斬獲“三冠一亞”的佳績,并是唯一獲得多個冠軍的隊伍,成為與會嘉賓和媒體關注焦點。
此次大會由中國中文信息學會語言與知識計算專業委員會主辦,主題為“知識圖譜與認知智能”,共設立8個相關主題的技術評測任務,旨在為研究人員提供測試知識圖譜與語義計算技術、算法及系統的平臺和資源,促進國內知識圖譜領域的技術發展。
隨著互聯網科技飛速發展,人們逐漸從信息時代進入智能時代。知識圖譜作為承載底層海量知識并支持上層智能應用的重要載體,在智能時代中扮演了極其重要的角色。其中,多模態知識圖譜的構建,能夠讓基于知識圖譜的智能服務更好地理解真實世界的數據場景,進而更好地支撐各項上游任務和行業應用,如推薦系統、語義搜索、智能問答等。
大會現場吸引眾多行業資深專家蒞臨現場
深蘭科技獲獎信息(點擊可看清晰獎狀)
新冠百科知識圖譜類型推斷
面向金融領域:事件主體抽取
基于標題大規模商品實體檢索
面向中文短文本的實體鏈指
基于標題大規模商品實體檢索(創)
面對社會各行各業不斷涌現的科技需求,深蘭科技研發人員正在加速開展各項技術的突破研發。據了解,深蘭科技DeepBlueAI團隊此次奪冠的三個任務方案,分別可在電商、金融、輿情監控等領域的應用上發揮重要作用。
具體來說,深蘭科技DeepBlueAI團隊分別在 “新冠百科知識圖譜類型推斷”、 “面向金融領域的篇章級事件主體抽取”、“基于標題的大規模商品實體檢索”這三個(子)任務中奪得冠軍;在“面向中文短文本的實體鏈指”任務中僅以0.00002分之差屈居亞軍;此外,本屆組委會還特別評選出每一任務至多一項的“創新技術獎”,專門用于鼓勵創新性技術的使用,深蘭團隊在“基于標題的大規模商品實體檢索”的任務中再次脫穎而出。
綜上所述,從包括CCKS2020在內的國內外“頂會”賽題任務設置中不難發現,共同要點更注重于落地應用性。如今人工智能已逐漸滲透到各個行業并轉化為實際應用,深蘭早在成立之初就提出了“基礎研究與落地應用”齊頭并進的理念,并取得有目共睹的成效。會議競賽的成績正是對現在及過往的檢驗,更是對今后不斷進取的鞭策,“人工智能 服務民生”將是深蘭矢志不渝的奮斗目標。
“三冠”詳細解讀:
一, “新冠百科知識圖譜類型推斷” 任務,要求從實體百科(包括百度百科、互動百科、維基百科、醫學百科)頁面出發,從給定的數據中推斷相關實體的類型。然而,大量類型信息以非結構化文本形式呈現于網絡頁面中,文本處理難度大,抽取結果同時保證高準確度和覆蓋率仍然是個極大的挑戰。
應對:針對數據集的特點,DeepBlueAI團隊構建了數個基于BERT模型的文本分類器,并引入了多個外部數據集,最后將這些分類器進行融合得到最終判斷結果。實體類型是知識圖譜的重要組成,正確的實體類型是構建一個高質量知識圖譜的前提。
二,“事件”在金融領域是投資分析、資產管理的重要決策參考,也是知識圖譜的重要組成部分,而“事件抽取”是進行圖譜推理、事件分析的必要過程。在金融領域,“事件抽取”是一項十分重要的任務,也是自然語言處理領域一項比較復雜的任務,它的挑戰相當部分體現在文本復雜上:輸入的文本可能是句子、段落或者篇章,不定長度的文本使得限制文本長度的模型無法使用。
應對:“面向金融領域的篇章級事件主體抽取”任務中,DeepBlueAI團隊使用了多標簽事件分類加實體識別pipeline模型,在標準的多標簽分類模型中加入了特征提取模塊,實體識別模型采用BERT-LSTM-CRF與閱讀理解投票融合的方式,最終以較大優勢獲得第一。
三,“基于標題的大規模商品實體檢索”是典型的語義識別類任務,在網購已成為一種生活方式的前提下,該技術發展具有非常實用的價值。商品標題一般較短,上下文語境不豐富;用戶搜索時,文本口語化嚴重;商品標題中存在很多變異指代,沒有給定的指代映射表,這些方面都需要對上下文語境進行精準理解,具有很大的挑戰。
應對:DeepBlueAI團隊針對商品檢索任務采用召回-粗排-精排的總體方案,在召回階段放棄了bm25、dssm等主流召回技術,創新性地使用Triplet BERT模型進行召回,在排序階段采用基于BERT的二分類排序方式,檢索準確率達到0.88489。最終不但排名第一,還收獲了創新技術獎。
關于 CCKS
第十四屆全國知識圖譜與語義計算大會(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中國中文信息學會語言與知識計算專業委員會主辦,主題是“知識圖譜與認知智能”,共設立8個相關主題的技術評測任務,旨在為研究人員提供測試知識圖譜與語義計算技術、算法及系統的平臺和資源,促進國內知識圖譜領域的技術發展,此次大會吸引了包括華為、百度、騰訊、小米、北京大學、上海交通大學和浙江大學等知名企業和學府的團隊同臺競技。
-
8項冠亞季軍收官ECCV2020,深蘭獲三大視覺頂會挑戰賽大滿貫
計算機視覺 -
與騰訊、哈工大同臺競技,深蘭獲自然語言處理領域國際頂會NAACL2021冠軍
計算機視覺 -
捷報 | 深蘭科技“雙隊”出征CVPR2021 斬獲五冠共獲14項大獎
計算機視覺 -
2022CVPR傳捷報丨深蘭科技再度折桂,連續4屆獲得CVPR挑戰賽冠軍
計算機視覺 -
深蘭科技奪冠CCKS2022“帶條件的分層級多答案問答”評測任務競賽
自然語言處理 -
PK 656 個對手!深蘭科技在全球頂級AI賽事kaggle競賽中再次奪冠
計算機視覺 -
一冠三亞二季!深蘭科技在EMNLP2022國際頂級賽事再創佳績
數據挖掘 -
6個獎項!深蘭科技在CVPR 2023挑戰賽中再獲佳績
計算機視覺 -
6冠3亞2季!深蘭科技在RANLP2023國際賽事上斬獲11項大獎
計算機視覺