廣州車展期間,小米汽車正式宣布將向車主推送 1.11.0 版本 OTA 升級。
1.11.0 版本對於小米來說,是打智駕“翻身仗”的一次重要機會。
小米HyperOS 1.11.0 版本下,小米HAD的命名也變更為“HAD 增強版”,除了城區、高速NOA能力的全面提升,這一版本還增強了主動安全能力,新增了AES功能。
在軟件上,小米HAD 增強版同樣是基於 1000 萬 Clips數據量,但引入了世界模型和強化學習。
小米官方稱,在1.11.0版本下,小米的縱向加減速更絲滑、變道更加果斷,找路的精準度也更高了。
在10月份,AutoLab白澤獎也率先內測了小米1.11.0版本,從體驗和實測數據來看,小米全新版本的輔助駕駛確實取得了很大進步。
白澤獎首期城區NOA橫評視頻將在下個禮拜發布,歡迎大家關注收看。
同樣是在廣州車展上,小米也花了一定的篇幅向外界介紹了小米“智駕天團”,他們分別是小米智能駕駛業務負責人葉航軍、端到端技術負責人陳光、VLA 技術負責人陳龍及 L3 負責人王乃岩。
這也是小米第一次在公開場合介紹小米智能駕駛團隊構成,除了葉航軍博士,另外三人的title也表明了他們正在做的工作,分別負責端到端、VLA與L3。
也是在此期間,四位智能駕駛核心負責人也面對媒體,聊到了小米汽車智能駕駛發展的歷程。
小米智駕,小步快跑
外界一直認為小米汽車智能駕駛總是“慢半拍”,不管是端到端還是VLA,總不是沖在前面的企業。
葉航軍稱這其實主要有兩個原因:
第一,小米汽車真正開始組建智能駕駛團隊是在小米宣布造車的發布會當晚,也就是2021年3月29日。
發布會後,雷總第一時間給葉航軍博士發信息,要求葉博士組建智能駕駛自研團隊。
言下之意是,小米汽車智能駕駛的起步比較晚。
圖片來源:小米官網
我們不妨橫向對比一下,2021年的3月這個時間點,新勢力們的智能駕駛團隊都發展到了哪一步。
小鵬是國內最早啟動智能駕駛自研的車企,小鵬高速NGP發佈於2021年1月,彼時小米汽車的智駕自研團隊還未成立;
時間再向前推幾個月,蔚來於2020年10月就正式向用戶推送了第一版高速領航NOP。
即便是新勢力三強中最晚啟動智能駕駛自研的理想,也於2021年5月發布了第一代高速NOA。
小米入場晚,且智能駕駛本身就不是一口能吃成胖子的業務,整體進度略慢於競品是可以接受的。另外,葉航軍博士還提到,小米還花了很多時間去做智駕體系的基礎設施建設,例如數據體系、驗證體系等等。
第二個原因是,小米沒有跳過任何一代技術,甚至基於高精地圖的城市NOA也做了,儘管這個功能最終沒有量產,但內部仍然認為這些研發是有價值的,以為這在一定程度上降低了整個系統的複雜度,否則就是把所有的問題包在一起丟給研發。
這裡我的理解是,智能駕駛的進階之路就像遊戲里的晉陞之路,每一關每一個怪都打一遍,而不是直接上手高難度的關卡。
圖片來源:小米官方微博
目前最新發布的OTA 1.11.0 正是陳光博士帶隊研發的,如果用比較流行的“量產一代、預研一代”來說的話,陳光博士的團隊主要負責目前端到端版本的量產和優化,陳龍博士負責下一代VLA的研發,而來自圖森的王乃岩,負責單獨的L3業務。
這一代產品的進步,主要得益於世界模型和強化學習的上車。
世界模型和強化學習是智能駕駛圈最新的熱詞,陳光博士是怎麼看待這兩項技術的呢
首先端到端已經是目前行業共識了,橫縱一體的一段式端到端能夠顯著降低系統的時延,從而將規劃控制做得更加舒適、高效。
但是端到端也有一些問題,比如要面臨“黑盒不可解釋”、“數據需求量大”等難題,世界模型正是解決這些問題的關鍵技術。
世界模型的最大好處是具備“生成+驗證”的能力,如果把端到端當做是一名考生,那麼世界模型既能夠生成考題,也能驗證它的應試能力。
另外就是解決了龐大的數據需求的問題,端到端需要大量數據,但是智能駕駛缺的難例場景。
例如,系統需要訓練前方卡車突然掉落異形障礙物,真實道路採集的話,可能上萬公里也無法遇到一次,但是世界模型的生成能力可以輕鬆獲取這些corner case。
圖片來源:英偉達官網
但是這裡也有一個前提,那就是世界模型生成的數據必須具備高保真的特點,這樣進行訓練才有效。
強化學習本身是一種獎懲措施,小米採用了異步機制、大規模集群管理和高效的視頻模型生成來完成對強學習的快速監督。
用一句話總結就是,在小米智駕的體系里,世界模型更像是小米搭建的考場,裡面會生成各類考題,而強化學習就是考官,系統要在這裡無限刷題。
並且,系統要在雲端完成10萬公里的測試,通過後再用30台測試車在城市、高速里跑5000公里抽檢,全部合格後才能OTA給用戶。
即將進入3.0時代
葉航軍博士有個觀點,智能駕駛可以分為三代。
第一代是規則驅動、第二代是數據驅動,第三代就是認知驅動。
目前端到端處於是數據驅動的時代,而VLA就是進入了認知驅動時代。
端到端只能模仿人類的駕駛行為,而VLA才具備主動理解的能力,遇到一些極為特殊的場景時,有具備人的認知能力才能有應對能力。
在陳龍博士的採訪中,他提到了VLA和世界模型的關係,這也是最近行業吵得不可開交的議題。
圖片來源:蔚來官網
陳龍博士認為,VLA與世界模型並非是二選一的關係,端到端是模擬人類駕駛,行為與教動物開車並無兩樣,而VLA負責抽象推理+價值觀對齊,兩者可以聯合訓練、協同縮放。
另外,小米沒有選擇開源的基座模型,在陳龍看來,開源模型往往使用了網絡上的數據進行預訓練,模型對3D空間感知和推理能力是不強的。
小米選擇自研具身基座模型,小米自研的MiMo基座模型先吃透通用語言/多模態數據,再諸如駕駛空間感知和行為表現,最終蒸餾成車規級VLA模型。
在小米智駕團隊中,王乃岩負責的是L3。
包括華為、極氪在內的很多企業,都在大力推動L3的落地。小米針對性做技術研發,一點都不意外。
由於L3還處於研發階段,這次透露的信息並不多,但是他提到了一個非常關鍵的點,就是“冗餘”。
這裡的冗餘是全方位的,包括架構、算法和硬件。
圖源:蔚來官方微博
架構冗餘指的是車輛的系統,例如供電、通訊等。其實這也是法規的要求,包括系統的供電,都要求有備用電源以防萬一。
硬件當然更容易理解,傳感器互為冗餘,多模態融合感知能夠更好確保系統穩定感知。
王乃岩博士以波音 737 MAX 空難為例,該飛機雖有兩個機頭迎角傳感器的硬件冗餘,但軟件僅採信其中一個數據。當數據異常時系統無法識別自身錯誤,持續做出壓低機頭的誤操作,最終釀成事故。
寫在最後
對於汽車行業來說,小米絕對算是新人,智能駕駛也是如此。
從21年3月組建團隊,到今天交付基於世界模型、強化學習的端到端輔助駕駛。小米一直在用小步快跑的方式,一路追趕。
圖片來源:微博博主@科技新一
小米智駕團隊目前規模已超1800人,其中博士108人,雖然小米入局晚,但從未想過用供應商方案。
作為一家把“科技”刻進DNA的企業來說,好用、用戶愛用的智駕,一定是他們持之以恆追求的目標。