由機器之心報告。
機器之心編輯部
在目標檢測領域,Yolov9實現了代際強化,利用新的架構和方法,使傳統卷積在引數利用率方面優於深度卷積。在 2023 年 1 月正式發布 Yolov8 一年多後,Yolov9 終於來了!
眾所周知,YOLO是乙個基於全域性影象資訊的目標檢測系統。 自 2015 年 Joseph Redmon、Ali Farhadi 等人提出第乙個模型以來,該領域的研究人員對 Yolo 進行了多次更新和迭代,模型效能也越來越強大。
此次,yolov9由台灣中央研究院、台北科技大學等機構聯合開發,相關**“使用可程式設計梯度資訊學習你想學的東西”已經發布。
*位址:github 位址:
當今的深度學習方法側重於如何設計最合適的目標函式,以便模型的結果盡可能接近實際情況。 同時,必須設計乙個合適的架構,以幫助獲得足夠的資訊來執行。 然而,現有方法忽略了輸入資料在進行逐層特徵提取和空間變換時會丟失大量資訊的事實。
因此,Yolov9深入研究了資料通過深度網路傳輸時資料丟失的重要問題,即資訊瓶頸和可逆功能。
研究人員提出可程式設計梯度資訊 (PGI)。應對深度網路實現多重目標所需的各種變化。 PGI可以為目標任務計算的目標函式提供完整的輸入資訊,從而獲得可靠的梯度資訊來更新網路權重。
此外,研究人員還設計了一種基於梯度路徑規劃的新型輕量級網路架構,即:廣義高效層聚合網路(GELAN)。。這種架構證實了PGI可以在輕量級模型上取得出色的效果。
研究人員在基於MS Coco資料集的物件檢測任務上驗證了所提出的GERAN和PGI。 結果表明,與基於深度卷積開發的SOTA方法相比,Gelan僅使用傳統的卷積運算元即可實現更好的引數利用。
對於PGI來說,它非常適用,可以用於從輕型到大型的各種型號。 我們可以使用它來獲取完整的資訊,從而:使從頭開始訓練的模型能夠獲得比使用大型資料集預訓練的 SOTA 模型更好的結果。下面的圖 1 說明了一些比較。
參與 YOLOV7、YOLOV4、SCALED-YOLOV4 和 DPT 開發的 Alexey Bochkovskiy 高度評價了新發布的 Yolov9,稱 YOLOV9 優於任何卷積或基於變壓器的目標檢測器。
有網友表示,Yolov9 看起來像是新的 SOTA 實時目標檢測器,他自己的定製訓練教程也在路上。
更多勤勞的網友為 yolov9 模型新增了 pip 支援。
讓我們詳細看看yolov9。
問題陳述
通常,人們將深度神經網路收斂的困難歸因於梯度消失或梯度飽和等因素,這些因素確實存在於傳統的深度神經網路中。 然而,現代深度神經網路通過設計各種歸一化和啟用函式,從根本上解決了上述問題。 然而,即便如此,深度神經網路仍然存在收斂速度慢或差的問題。 那麼問題的本質究竟是什麼呢?
通過對資訊瓶頸的深入分析,研究人員推斷出了問題的根本原因:在梯度最初從非常深的網路傳遞後不久,實現目標所需的大部分資訊都丟失了。 為了驗證這一推論,研究人員在具有不同架構的深度網路上進行了前饋處理,並具有初始權重。 圖 2 直觀地說明了這一點。 顯然,PlainNet正在丟失許多深層次上物件檢測所需的重要資訊。 至於ResNet、CSPnet、Gelan能夠保留的重要資訊比例,確實與訓練後能得到的準確率呈正相關。 研究人員進一步設計了一種基於網路的可逆方法來解決上述問題。
方法論
可程式設計梯度資訊 (PGI)。
本研究提出了一種新的輔助監督框架,即可程式設計梯度資訊(PGI),如圖3(d)所示。
PGI主要由三部分組成,即(1)一級分支、(2)二級可逆分支和(3)多級輔助資訊。
PGI 的推理過程僅使用主分支,因此沒有額外的推理成本;
輔助可逆分支是處理神經網路深化帶來的問題,這會導致資訊瓶頸,導致損失函式無法生成可靠的梯度。
多級輔助資訊旨在處理深度監管導致的錯誤積累問題,尤其是多分支和輕量級模型的架構。
格蘭網路
此外,該研究還提出了一種新的網路架構GELAN(如下圖所示),其中研究人員將CSPNET和ELAN兩種神經網路架構結合起來,設計了乙個兼顧輕量級、推理速度和準確性的廣義高效層聚合網路(GELAN)。 研究人員將ELAN的功能推廣到可以使用任何計算塊的新架構中,ELAN最初僅使用卷積層堆疊。
實驗結果
為了評估 Yolov9 的效能,該研究首先對 Yolov9 與其他從頭開始訓練的實時目標檢測器進行了全面比較,結果如下表 1 所示。
該研究還將 ImageNet 預訓練模型納入比較,結果如下圖 5 所示。 值得注意的是,使用傳統卷積的 Yolov9 在引數利用方面甚至比使用深度卷積的 Yolo MS 更好。
消融實驗
針對單個組分在YOLOv9中的作用,在研究中進行了一系列消融實驗。
該研究從Gelan計算塊的消融實驗開始。 如下表2所示,研究發現,通過用不同的計算塊替換ELAN中的卷積層,該系統保持了良好的效能。
然後,該研究對不同尺寸的gelans進行了ELAN塊深度和CSP塊深度的燒蝕實驗,結果如下表3所示。
在PGI方面,研究人員分別對骨幹網路和NECK進行了輔助可逆分支和多級輔助資訊的消融研究。 表 4 列出了所有實驗的結果。 從表4可以看出,PFH只對深度模型有效,而本文提出的PGI可以提高不同組合的精度。
研究人員進一步對不同大小的模型進行了PGI和深度監測,並將結果進行了比較,如表5所示。
圖 6 顯示了從基線 YOLOV7 到 YOLOV9-E 逐步增加元件的結果。
視覺化
研究人員確定了資訊瓶頸問題並將其視覺化,圖 6 顯示了使用隨機初始權重作為不同模式中前饋獲得的特徵圖的視覺化。
圖 7 說明了 PGI 是否可以在訓練期間提供更可靠的梯度,以便用於更新的引數能夠有效地捕獲輸入資料和目標之間的關係。
有關更多技術細節,請閱讀原文。