冠軍方案 | 深蘭拿下首屆 LargeFineFoodAI賽道冠軍,計算機視覺應用于大規模細粒度食品分析領域
2021-10-22日前,兩年一度的計算機視覺領域頂級學術會議 ICCV 在加拿大蒙特利爾圓滿閉幕。在此期間,與大會同期舉行的首屆LargeFineFoodAI技術研討會,由美團視覺智能中心聯合中科院計算所、北京智源、巴塞羅那大學在Kaggle競賽平臺上共同主辦,會議核心聚焦計算機視覺技術在大規模細粒度食品分析領域的應用。
首屆 LargeFineFoodAI 比賽分為 Recognition 和 Retrieval 兩個賽道,根據研討會評選結果得知,深蘭DeepBlueAI團隊在Large-ScaleFine-Grained Food Retrieval 賽道中取得了冠軍的成績。
01
賽題介紹
與通用圖像識別及檢索相比,食品細粒度識別及檢索技術難度更大。許多不同類型的食品外觀看起來可能非常相近,而同一種類型的食品也可能由于做法不同看起來差異較大,此外光線、拍攝角度、不同的拍攝背景都可能對算法的精度產生影響,即便對于專業人員也較難快速準確的進行辨別。
另一方面,相關技術具有廣泛的應用場景和實際的應用價值,例如降低商家端食品圖片的審核成本,提升C端食品圖片和視頻的分發效率等。美團作為國內領先的生活服務平臺,準確把握住消費升級趨勢給餐飲行業的經營、消費方式帶來的革命性變化,率先提出借助計算機視覺算法對食品圖像進行細粒度分析,來快速響應和滿足商戶和用戶大量多樣的在線食品圖像審核、管理、瀏覽、評價等需求。
本次挑戰賽所用數據集來自美團自建數據集"Food2K",該數據集每一張美食圖片均由不同個人,采用不同設備,在不同環境場景下拍攝獲取,是難得的可以公正評價算法魯棒性和效果的圖片數據,挑戰也非常大。并且所有圖像均由美團公司的食品專家進行評估,確保了數據的高質量。相比其他主流食品圖像識別數據集,"Food2K"數據集完全人工標注,數據集噪聲比例控制在 1% 以內;數據分布與真實場景相符,不平衡現象顯著;而且類別粒度更細。以披薩為例,主流數據集(例如Food-101)僅具有披薩類,而"Food2K"進一步將其劃分為多種多樣的披薩,如鮮蝦披薩、榴蓮披薩等。
02
評測指標
此外,為了進一步推進食品視覺分析領域的研究與實踐,吸引更多行業相關團隊關注參與,美團發起了以LargeFineFoodAI為主題的挑戰賽。該競賽將分為兩大賽道,其一是“大規模食品圖像細粒度識別”,將采用Food1K數據集(包含1500種類別中的1000種食物類別),通過Top-1分類準確率進行算法評估;其二是“大規模食品圖像細粒度檢索”,將使用同賽道一的訓練和驗證集,使用剩余的Food500作為測試集,使用MAP@100進行算法評估。
03
團隊成績

團隊成績排名
獲獎證書
04
題目特點以及常用方法
圖像檢問題現有研究比較多,但對于大規模、細粒度的圖像檢索比較新。圖像檢索最主要的就是特征提取網絡,現有的的特征提取網絡主要基于卷積神經網絡如ResNet、ResNest和EfficientNet等,無法像transformer一樣提取到更加豐富、區分度更高的特征。提取完特征后,在度量兩張圖片相似度的階段單純使用余弦距離來計算精度很低,DeepBlueAI團隊使用ReRank的方法將歐式距離和雅可比距離加權來度量query和gallery之間的相似度。
05
比賽數據與數據分析
本次比賽數據集包含超過1000個細粒度食物類別和超過50000張圖像的數據集。它包含西餐和中餐,每個類別的圖像數量在范圍內[153; 1999],與現有的食物數據集相比,顯示出更大的類別不平衡。下圖顯示了它的本體和數據集的詳細統計信息:

從圖中可以看出,LargeFoodAI數據集,具有類別多、細粒度和類別不平衡等特點。
06
PIPELINE
如下圖所示,DeepBlueAI團隊首先采用五折交叉驗證的方法對數據進行劃分;然后用Swin Transfomrer作為主干網絡提取特征;接著用BNNeck模塊對所提特征進行歸一化操作;最后使用交叉熵和label smooth函數對模型進行優化。
07
實驗模型
Swin Transforme主干網絡
DeepBlueAI團隊基于Swin Transformer主要實驗了4種結構,swin_base_224, swin_base_384、swin_large_224和swin_large_384模型。下圖為Swin Transfomer的結構圖:
Sharpness-AwareMinimization
(SAM)優化器
SAM優化器通過一種新的、有效的方法來同時減小損失值和損失的銳度,在領域內尋找具有均勻的低損失值的參數。該方法通過求解最小-最大優化問題,使得梯度下降可以有效地執行,在各種基準數據集上都改善了模型得泛化能力。下圖為SGD優化器和SAM優化器的示意圖:
CutMix數據增強
DeepBlueAI團隊采用CutMix數據增強的方法來擴充數據的多樣性,同時也能提高模型對相似類別數據的區分度。
Rerank_qe
DeepBlueAI團隊將所有數據中和query特征最為相似的40個特征的平均值作為新的query特征,用0.25的權值對歐式距離和雅可比距離進行加權。ReRank方式如下圖所示:
08
模型融合
模型融合是算法大賽中常用的提高模型精度方法,DeepBlueAI團隊最終選擇了swinb_224、swinb_384、swinl_224和swinl_384等不同主干和訓練尺度生成的特征進行模型融合,最終模型融合的結果為82.813mAP@100,取得了本次比賽第一的成績。
# 深蘭DeepBlueAI團隊總結
我們在最初做這個任務的時候,嘗試了許多基于CNN的主干網絡,如ResNet、ResNeSt和EfficientNet等,但是發現這些主干網絡無論分類還是檢索的效果都不是很好。在分類任務使用Swin Transformer取得遠優于CNN網絡的效果之后,就把它移植到檢索任務里來,取得了不錯的成績。在進一步的使用ReRank、Ensemble等檢索任務常用trick之后,取得了檢索任務第一的成績。
在數據處理方面,我們發現CutMix方法有效的增強了不同類別之間特征的區分度。SAM優化器和LabelSmooth損失函數的采用,也進一步的提高了模型的泛化能力和識別精度。
-
8項冠亞季軍收官ECCV2020,深蘭獲三大視覺頂會挑戰賽大滿貫
計算機視覺 -
與騰訊、哈工大同臺競技,深蘭獲自然語言處理領域國際頂會NAACL2021冠軍
計算機視覺 -
捷報 | 深蘭科技“雙隊”出征CVPR2021 斬獲五冠共獲14項大獎
計算機視覺 -
2022CVPR傳捷報丨深蘭科技再度折桂,連續4屆獲得CVPR挑戰賽冠軍
計算機視覺 -
深蘭科技奪冠CCKS2022“帶條件的分層級多答案問答”評測任務競賽
自然語言處理 -
PK 656 個對手!深蘭科技在全球頂級AI賽事kaggle競賽中再次奪冠
計算機視覺 -
一冠三亞二季!深蘭科技在EMNLP2022國際頂級賽事再創佳績
數據挖掘 -
6個獎項!深蘭科技在CVPR 2023挑戰賽中再獲佳績
計算機視覺 -
6冠3亞2季!深蘭科技在RANLP2023國際賽事上斬獲11項大獎
計算機視覺