蘇黎世大學在基於視覺的自治系統方面的突破表明,通過使用先進的神經網路和機器學習演算法,基於視覺的自主系統確實可以超越人類。
大多數自動駕駛儀解決方案通常使用雷達和攝像頭的組合來使感知更加準確。 但是,這種方法存在許多缺點。 在他們的工作中,工程師們發現,在攝像頭上增加額外的感測器,如雷達,會影響最終的分析速率和結果,冗長的程式**也會使駕駛系統不夠“智慧型”。
此外,配備雷射雷達的車輛越來越多,會相互干擾,影響檢測精度雷達的觀測值會不時變化,會帶來一定的誤差除此之外,當攝像頭和雷射雷達傳輸的資訊發生衝突時,車機應該選擇相信誰?“如果雷達與相機分析的資訊相互矛盾選擇智慧型駕駛系統將很困難。 最好只選乙個,做到極致。
馬斯克堅持要擺脫慣性思維,從第一性原理出發:道路是為生物神經網路和眼睛設計的,人沒有類似雷達的器官,只有眼睛還能識別路上的交通,那麼汽車也可以做到。 特斯拉前人工智慧高階總監安德烈說:“。希望能夠構建乙個類似於動物視覺皮層的神經網路,以模擬大腦中資訊輸入和輸出的過程。
就像光線進入視網膜一樣,我們想用相機模擬這個過程。 可以看出,特斯拉致力於開發純視覺自動駕駛系統,通過模擬人眼和大腦的結構和功能,可以實現比人類更高的駕駛效能。
事實上,早在 2020 年,特斯拉就宣布將放棄雷達,全面採用基於攝像頭的自動駕駛系統。 彼時,業界仍存在諸多疑問,但隨著演算法和算力的進一步提公升,純視覺自動駕駛解決方案正在迅速實現突破,而蘇黎世大學的研究更是進一步印證了這一點。
研究表明,通過模仿人眼視網膜的結構和大腦的視覺皮層,乙個龐大的卷積神經網路不僅可以達到甚至超過人類在影象分類、物體檢測等傳統視覺任務中的效能水平並且可以將影象輸入端到端地轉換為驅動決策輸出,完成整個自動駕駛感知和決策過程。
換句話說,這是一種人工智慧解決方案,從輸入到輸出都高度模仿生物視覺系統。 輸入端模擬眼部影象採集,中間端通過類似視覺皮層結構的卷積神經網路提取和理解特徵,最後輸出端直接生成驅動決策,無需傳統的多感測器融合或規則引擎。
研究還表明,這種純視覺系統可以進行快速準確的交通環境感知,包括目標檢測、跟蹤、運動估計等功能,感知的速度和質量甚至超過人類水平。 在駕駛模擬和道路測試中,它展示了強大而穩定的自動駕駛能力。
更重要的是,這個了解交通環境和做出駕駛決策的整個過程完全基於高效的神經網路深度學習演算法,取代了過去低效繁瑣的人工特徵工程和規則集設計,並且完全可複製、可擴充套件、可持續。 這意味著,隨著計算能力和資料集的增加,此類系統的駕駛效能將繼續呈指數級增長。
儘管在繁忙的街道上,距離真正的商業化和應用還有一段距離,但純視覺自動駕駛系統顯然是最有前途的解決方案。 它具有高度仿生性,同時也是一種高效的深度學習解決方案,勢必成為該領域發展的主流和趨勢。 特斯拉正在順勢而為,全力推進這一戰略,相信會率先成功。
蘇黎世大學的研究是在這個過程中迸發出來的一項關鍵突破性技術。 它在系統設計和實際結果方面都顯示出令人驚訝的能力,證實了純視覺系統在自動駕駛方面超越人類的巨大潛力。 相信在不久的將來,這樣的系統將改變交通和流動性的面貌,造福人類社會。