在過去的二十年裡,自動駕駛技術取得了重大進展,一些高度自動化的汽車已經上市。 不久前,我們分享了乙個機械人實驗,涉及理解複雜的指令。 如果大型語言模型(LLM)能夠理解並執行自動駕駛汽車的口頭指令,不再侷限於簡單的命令,如“嘿XX,開啟天窗,關掉空調”,而是涉及複雜的指令,在道路上實際操縱汽車,那將是多麼神奇的體驗。
本文的作者介紹了Talk2Drive,這是乙個自動駕駛框架,它利用LLM來解釋和響應各種人類命令,尤其是那些抽象或情感的命令,同時利用歷史互動資料來實現個性化的駕駛體驗。 與需要精確輸入的傳統系統不同,Talk2Drive框架允許與車輛進行更自然、更直觀的通訊。
本文將深入探討LLM在自動駕駛決策中的作用,並討論車輛配置、感知系統和通訊裝置等技術,以及這些技術如何協同工作以實現真實道路上的自主導航。
**主題
large language models for autonomous driving: real-world experiments
鏈結
與傳統系統相比,LLM在自動駕駛方面具有以下優勢:
對抽象表達的理解傳統系統難以理解人類的抽象指令,而LLM能夠理解和適應各種人類情感和上下文線索。 個性化您的駕駛體驗:LLM通過提供基於人類歷史偏好和命令的個性化駕駛模式來增強駕駛體驗。 實時性和安全性:LLM 在處理複雜的人工指令時具有低延遲,這對於實時應用程式和安全關鍵場景至關重要。 Talk2Drive框架是一種用於自動駕駛規劃和控制任務的創新方法,它將基於雲的大型語言模型(LLMS)與真實世界的車輛動力學相結合,以個性化的方式響應人類輸入,如圖1所示。
圖1Talk2Drive框架結構。
這是確保準確翻譯使用者口頭指令的框架的第一步,通過整合實時環境資料,系統可以更全面、更智慧型地理解和處理這些指令。
talk2drive框架從先進的語音識別技術開始識別人類口頭命令。口頭命令它被翻譯並轉換為文字指令這一步的關鍵是確保口語的內容和細節可以準確地轉換為文字格式。 同時,LLM 訪問基於雲的實時環境資料,包括天氣更新、交通狀況和當地交通規則資訊整合上下文資料以文字格式呈現,在決策過程中發揮關鍵作用,確保系統的響應考慮到上下文的上下文。
在本節中,LLM 用於處理和推理文字命令,這些命令是框架中的關鍵步驟,使系統能夠理解複雜的、上下文豐富的指令。 LLM 在推理過程中解釋這些文字命令。 此步驟的目標是讓 LLM 理解使用者的指令並做出相應的決策。 此外,LLM 可以與上一步中提供的上下文資料相結合。
LLM 推理過程的輸出是可執行的,用於規劃和控制車輛行為。 受“戰略即戰略”概念的啟發,這一步驟生成的不僅僅是一系列簡單的指令,這些指令涉及複雜的駕駛行為和引數微調,這些都需要在車輛的底層控制器中完成。 這包括微調控制引數,如前視距離和前視比,以及根據駕駛員的口頭指示修改車輛的目標速度。
這個過程已經實現從語言模型生成到實際駕駛行為的過渡並通過了安全檢查這確保了整個過程的可靠性和安全性。
LLM生成的**通過雲傳送回車輛的電子控制單元(ECU),並在ECU中執行。 talk2drive 框架為生成的 **設定了兩個安全檢查:
先檢查生成的 ** 的格式是否有效如果它不符合有效的格式,框架將不會提供與生成相關的反饋或操作,從而確保生成在結構上是正確的,以避免可能的錯誤。 另一項安全檢查涉及:引數驗證評估給定引數在當前情況下是否合適和安全。 此步驟有助於防止執行潛在危險**,並確保生成的**適合車輛且安全。 執行涉及調整車輛規劃和控制系統中的基本駕駛行為和各種引數。 執行器通過CAN匯流排和電子控制驅動系統控制油門、制動器、檔位選擇和轉向,如圖2所示。 這確保了LLM生成的**能夠準確地引導車輛執行適當的駕駛行為。
圖2 自動駕駛功能模組和訊息流
該模組為talk2drive框架引入了個性化的駕駛體驗,通過記錄、分析和利用歷史互動資料使系統變得更好智慧型適應使用者的駕駛偏好。這種新的記憶體模組的目的是儲存人與車輛之間的歷史互動,重點是增強個性化的駕駛體驗。
人與車輛之間的每一次互動都會被記錄下來,並以文字格式儲存到ECU內的記憶體模組中。 記錄包括人類口頭命令、生成的 LLMS**和人類反饋。 每次行程後,記憶模組中的歷史資料都會更新,並實時記錄與車輛的每次互動,以反映使用者與車輛的最新狀態和偏好。
如果使用者對類似命令的反應不同,LLM 將使用最新的反饋作為其當前決策過程的參考點,這可以滿足使用者可能不斷變化的偏好。 當使用者發出命令時,LLM 會訪問記憶體模組,並將儲存的資訊用作決策過程輸入提示的一部分。
車輛的行駛軌跡是通過記錄一系列航點來生成的,這些航點在區域性坐標系中表示車輛的位置資訊,並構成車輛的預定行駛路線。 軌跡跟蹤模組的主要功能是使飛行器能夠按照指定的航點序列進行導航。 它通過載入選定的曲目來啟動整個過程。
系統根據當前目標路徑不斷檢查車輛的當前狀態,並計算它們之間的距離,稱為前瞻距離。 此前瞻距離用於確定車輛是否足夠接近當前航點。
如果飛行器離當前路徑足夠近,則當前目標路徑將更新到下乙個航點。 如果飛行器與當前目標航點之間的距離沒有達到設定的最小距離,系統將繼續通過純跟蹤演算法導航到原始當前目標航點。 重複上述過程,直到車輛到達最終路徑,此時演算法結束。
圖3 軌跡跟蹤流程圖。
作者在自動駕駛系統中使用純跟蹤演算法作為路徑跟蹤方法。 其輸入包括目標航點、前方距離和所需速度,生成用於車輛控制的車輪角度和當前加速度。 純跟蹤演算法的核心思想是利用前方距離、轉彎半徑、前瞻點的方向角來計算前輪旋轉角度,然後利用計算出的前輪旋轉角度和預期車速來實現對目標航點的跟蹤,如圖4所示。
圖4 純跟蹤路徑跟蹤演算法示意圖。
實驗。
圖 5 實驗中真實自動駕駛汽車的設定。
自動駕駛汽車平台的感測器套件和連線設定如圖 5 所示。 實驗測試軌道如圖 6 所示,測試的指定軌跡形成乙個矩形環,其中包括乙個允許連續速度和控制評估的長直道,以及每個角落的拐角。
圖6 實驗場地圖。
在實驗中,受試者被分為三組,這些組內的成員在駕駛行為方面具有相似的趨勢。 然後,受試者被要求在三個層面上制定命令(直接、習慣和非習慣性間接策略)。 它通過talk2drive框架進行處理,該框架初始化軌跡跟蹤模組。 每個命令都使用四種不同的語言模型進行處理,收集速度和響應延遲等資料點,然後計算評估指標。 為了建立速度差異和速度方差的基線,還要求不同組的人類駕駛員在同一條軌跡上行駛,並將其資料的平均值作為基線值,表1顯示了這些評估指標的具體值。
表 1 不同 LLM 模型和命令類別的 Talk2Drive 結果。
理解:使用速度差異來評估 LLM 模型理解間接命令的能力。 在框架中測試的所有 LLM 都能夠理解不同速度意圖類別的速度命令,並以 100% 的成功率準確地將其轉化為執行**。 安慰:為了評估舒適度,測量了速度變化和加速度。 結果表明,速度差和平均加速度沒有明顯超過基線,而平均加速度下降沒有超過“優秀”駕駛體驗的建議閾值。 這表明通過talk2drive進行速度調節對駕駛舒適性沒有顯著影響。 延遲:從初始化 LLM API 呼叫到成功接收命令文字的持續時間被考慮在內。 結果表明,GPT-3 具有最短的延遲,這可能是由於其較小的模型尺寸。 GPT-4 和 Palm 2 稍慢,GPT-4 的延遲更穩定,也可能與使用者數量有關。 在測試過程中,評估了talk2drive整合前後的接管率,並通過模擬不同駕駛風格的人類駕駛員來模擬各種駕駛場景。 當駕駛員認為軌道跟蹤模組的預設速度設定太快或太慢時,他們就會接管車輛。 如表2所示,Talk2Drive的整合使駕駛員能夠以更直觀和個性化的方式與系統進行互動,通過口頭命令傳達他們對速度的偏好。 這種能力的提高反映在實際駕駛場景中接管率的顯著降低上,表明該系統更好地適應了駕駛員的偏好,並改善了整體使用者體驗。
表2 收購率比較分析
同時,還表明記憶體模組的引入顯著降低了接管率,這說明了歷史模組在實現更個性化的駕駛體驗方面的優勢。
本文演示了LLM在Talk2Drive框架中的創新應用。 實驗結果表明,talk2drive框架使自動駕駛汽車能夠有效地理解和執行複雜的、上下文豐富的人類命令,為駕駛體驗提供更高水平的個性化。 這也標誌著Talk2Drive成為第乙個在真實世界的自動駕駛汽車上成功部署LLM的框架,並以100%*的執行成功率為自動駕駛技術樹立了新的里程碑。
然而,在確保資料安全的同時,在實際場景中實現LLM對汽車的複雜駕駛,涉及反應速度和解釋指令的能力,仍然具有挑戰性。 我們期望在未來的研究中探索與其他智慧型交通系統和物聯網裝置的深度融合,以建立更智慧型的城市交通網路,共同打造更智慧型、更高效的城市交通網路。 我們期待自動駕駛技術的進一步發展,為未來的出行帶來更便捷、安全、個性化的新體驗