【轉載】刷新COCO目標檢測紀錄!谷歌只靠AI擴增數據,就把一個模型變成SOTA,已開源

互聯網新技術新應用動態2019-07-13 00:32:47

谷歌大腦Quoc Le團隊,又訓練出了一隻地表最強的模型。

這是一個目標檢測模型,從前並不是最強大。

但自從團隊用機器學習解鎖了特別的數據擴增策略,再用自動擴增來的新數據集訓練目標檢測模型,事情就完全不同了。

注意:目標檢測和分類不一樣,分類不需要標註邊界框,而目標檢測需要。

 左邊是自動擴增數據,右邊是成績提升

模型在COCO目標檢測任務上,拿到了50.7 mAP的最高分,刷新從前的紀錄。

谷歌的方法,並沒有改變模型本身,但有效提升了準確率,+2.3 mAP以上。

團隊還強調,AI在COCO數據集裏學到的擴增策略,直接遷移到其他數據集上,同樣可以提升準確率。

現在,算法已經開源了,AI學到的擴增策略也在裏面。

是怎樣的擴增策略?

論文寫到,這裏的數據擴增只涉及了一些簡單變換 (Simple Transformations) :

有應用在整張圖片上、但不會影響邊界框的那種變換,比如從圖像分類裏借來的顏色變換 (Color Transformations)。

也有不影響整張圖片、但改變邊界框位置的那種變換,比如圖像平移 (Translating) 或剪切 (Shearing) 。

還有隻針對邊界框裏的目標,而進行的變換。

注意,這些變換隻用在訓練過程中,不會用到測試環節裏。

研究人員説,當變換的數量越來越龐大的時候,就很難手動把它們有效組合到一起了。

所以,就要用機器學習,搜索出更適合目標檢測任務的組合策略。

思路是這樣的:

團隊把數據擴增搜索 (Data Augmentation Search) 看做一個離散的優化問題,優化的是模型的泛化表現

在自家的另一篇論文 (arXiv:1805.09501) 基礎上,把重點轉移到針對目標檢測的擴增策略上。

比起圖像分類任務的數據擴增,目標檢測的難點在於,要保持邊界框和發生形變的圖像之間的一致性 (Consistency) 。

而邊界框的標註,也為數據擴增提供了一種新的方式:只在邊界框裏面修改圖像。就像上文講的那樣。

另外,團隊還探索了在圖片發生幾何變換 (Geometric Transformations) 的情況下,怎樣去改變邊界框的位置。

具體方法是這樣的:

把擴增策略定義成一組無序的子策略 (Sub-Policy) 。

在訓練過程中,每個子策略都會被隨機選中,應用到當前的圖片裏去。

每個子策略裏,有N個圖片變換,依次在同一張圖上進行。

要把這個搜索過程,變成一個離散的優化問題,就要創建一個搜索空間。

空間裏面,有5個種策略,每種子策略有2種圖像變換運算。

另外,每個運算還和兩個超參數相關聯,一個是代表應用這個運算的可能性 (Probability) ,二是這個運算的大小 (Magnitude) 。

初步實驗之後,團隊定下了22種圖像變換運算。

學習完成的子策略,成效是這樣的:

肉眼可見,成效顯著。

一是在COCO目標檢測中,以50.7 mAP拔得頭籌,(比策略訓練前) 提升了2.3 mAP

二是在PASCAL VOC目標檢測中,提升了2.7 mAP。

也就是説,在COCO上訓練好的策略,直接搬到其他數據集上也有效。

團隊説,這個方法尤其適合在小數據集中避免過擬合

現在,代碼開源了,你也要試試麼?

論文傳送門:
https://arxiv.org/abs/1906.11172

代碼傳送門:
https://github.com/tensorflow/tpu/tree/master/models/official/detection


https://hk.wxwenku.com/d/201143488