作者 | 德新
編輯 | 王博
10月17日,極越宣布其基于純視覺的高階智駕方案,已在上海核心城區(qū)跑通城市領(lǐng)航輔助功能,同時官方還首次公布了與百度聯(lián)合開發(fā)的Occupancy占用格柵網(wǎng)絡(luò)技術(shù)。
基于對極越一貫的判斷,我們認為,極越的第一款車極越01,大概率將量產(chǎn)純視覺城市領(lǐng)航方案 。
極越01極有可能是國內(nèi)第一款搭載純視覺城市領(lǐng)航方案的車型。
過去國內(nèi)所有搭載城市領(lǐng)航功能的車型都選擇了多傳感器融合、帶有激光雷達的方案。極越的路線布局,將是國內(nèi)車企第一次在智駕技術(shù)路線上與特斯拉FSD正面PK。
極越公司在2021年3月份組建,當年6、7月這支團隊完成初步搭建,并啟動了車型產(chǎn)品的研發(fā)。嚴格來講,極越01從產(chǎn)品定義到即將上市,只用了兩年零四個月時間。
在最初定義產(chǎn)品時,極越內(nèi)部就想走純視覺智駕的方案路線。
最早,極越CEO夏一平和百度智能駕駛事業(yè)群組的首席研發(fā)架構(gòu)師王亮討論量產(chǎn)的路線,受限于算力平臺以及算法性能,當時的方案決定增加激光雷達,并且與視覺系統(tǒng)相互獨立,作為一套冗余的安全兜底。
但到2022年底、今年初,隨著BEV + Transformer等的算法成熟,切換純視覺方案再次被提上議程。其中重要的因素是大算力芯片量產(chǎn),以及業(yè)界在大模型上的技術(shù)工程突破。
夏一平說,「如果換作去年,我當時覺得要實現(xiàn)(完全)自動駕駛,需要10年時間。今年隨著有GPT4等一系列業(yè)界特別優(yōu)秀的工程實踐出來后,我評估 3-5年是可以實現(xiàn)的?!?nbsp;
在上車純視覺方案之前,王亮找夏一平詳細溝通了所需要的數(shù)據(jù)集、算法訓練需要的算力規(guī)模以及開發(fā)周期。
極越很快在全國投入了幾百臺用于純視覺方案的測試車,用于采集數(shù)據(jù),加快算法的迭代改進。
極越的智駕方案在開發(fā)初期,就采用了一部分高度統(tǒng)一的架構(gòu),比如AEB、泊車以及行車,采用的是統(tǒng)一的大模型來感知,這在開發(fā)初期推進非常困難,但極越和百度Apollo堅持認為這是未來方向。
王亮總結(jié)智駕系統(tǒng)長期的演進方向應(yīng)該是「大道至簡」。硬件的復(fù)雜性降低,模型算法越來越集中,而基于規(guī)則和假設(shè)的算法越來越少。
我們預(yù)估,極越預(yù)計今年會上馬量產(chǎn)純視覺城市領(lǐng)航方案,實際上這套純視覺方案不是短期就能干出來的。
2019年,百度內(nèi)部出于對一些技術(shù)進展的觀察以及產(chǎn)品驅(qū)動的需求,決定開辟一條新的技術(shù)路線,從原來的L4技術(shù)棧中解綁激光雷達。所以王亮當時帶領(lǐng)了一支小規(guī)模的團隊,開始了純視覺L4方案的開發(fā)。
而極越的智駕方案在產(chǎn)品定義初期,就將視覺系統(tǒng)與激光雷達系統(tǒng)設(shè)計相互獨立,互為冗余。從2021年開始,極越聯(lián)合百度Apollo,基于新的BEV + Transformer的技術(shù)對此前的純視覺方案進行了重構(gòu),比如用更加集中化的AI算法模型來解決感知問題。
引入BEV + Transformer對算法的迭代效率提升明顯。
在過去,模型算法的架構(gòu)是由許多分層的小模型構(gòu)成。舉個例子,一些小的模型會關(guān)注車輪、轉(zhuǎn)向燈以及車道線的識別,這個時候算法根據(jù)小模型感知的結(jié)果再編寫一些規(guī)則,比如車輪壓到車道線,并且轉(zhuǎn)向燈亮時可能前車要變道。而當內(nèi)部有較多的模型時,系統(tǒng)的復(fù)雜性會增加。
BEV+Transformer引入之后,用一個中央大模型替代很多小模型,而數(shù)據(jù)灌入會帶來直接的體驗變化,這比過去修改許多小模型以及規(guī)則,效果要好很多。
所以夏一平說,「數(shù)據(jù)生產(chǎn)的質(zhì)量和效率,是未來競爭的關(guān)鍵。」
自動化數(shù)據(jù)產(chǎn)線,是百度的一大優(yōu)勢。
百度目前有上千臺Robotaxi的運營規(guī)模,因此這些年搭建了一條非常高效的數(shù)據(jù)產(chǎn)線。帶有時序的4D數(shù)據(jù)無法沿用過去人工標注的方式,而上一代的感知算法可以用于生成標注數(shù)據(jù)來訓練下一代的模型。
再往下一步,純視覺目前最大的詬病,是對未知異形障礙物的識別。Occupancy Network占用格柵網(wǎng)絡(luò)(簡稱「OCC」),通過視覺三維重建的方式,解決針對特殊物體的識別問題。
激光雷達的優(yōu)勢勝在測距精準,但純視覺的方案能夠提供更加豐富的語義信息,并且點云更加稠密,而且避免了異源傳感器之間的時間同步、標定等問題的影響。
「相比于純視覺的方案,激光雷達算法不那么吃數(shù)據(jù),因為后者本質(zhì)是幾何信息。」王亮說。幾何信息內(nèi)涵相比于圖像信息是有限的,因此投喂一定量的數(shù)據(jù)之后,激光雷達算法的上限提升不如視覺算法明顯。
特斯拉FSD的V11是全球第一套量產(chǎn)了OCC的智駕系統(tǒng)。我們訪問了一些在美國的FSD用戶,從V10 - V11,增加了OCC之后,對城區(qū)特殊目標的感知提升明顯,尤其是針對近距的物體。
按照目前的進度來看,極越很有可能成為全球量產(chǎn)OCC的第二家。
不僅技術(shù)上對標,商業(yè)化上,極越也開始針鋒相對,多家門店已經(jīng)亮出了吸引特斯拉車主的特殊權(quán)益——2000元的“特”后悔基金,將全面硬剛特斯拉的氛圍拉滿。 ? ? ? ? ?
2021年李彥宏邀請夏一平出山,兩人最早有一個根本的共識,就是智能化會決定未來汽車的發(fā)展方向,成為核心的競爭力。
當時夏一平看到其中一個關(guān)鍵要素是兩顆芯片,一個是高通的8295,一個是英偉達的Orin。有了這兩顆芯片,才能承載很強的智能化能力,把過去放在更貴的工控機、在云端上跑的算法,在車端跑起來。
所以夏認為,今天競爭的核心是把這些要素的能力發(fā)揮出來,做到最大。
很多公司今天對8295的利用,是把8155上的系統(tǒng)遷移到8295上,盡管這樣做確實會讓系統(tǒng)更流暢,但本身并沒有發(fā)揮出8295的價值。
極越在上面做了一套目前體驗過的,業(yè)界最流暢、識別和響應(yīng)效果俱佳的語音交互系統(tǒng),并且有不少有特色功能的創(chuàng)新。
比較有意思的是,高通這代8295內(nèi)置了兩個NPU,大部分公司只用了其中的一個,也就是30T左右的算力。而極越做完語音的大模型之后,30T的算力基本用盡,又授權(quán)解鎖了另一個NPU,用剩下的30T算力來做圖形渲染以及游戲等應(yīng)用。
智能化最核心的智駕功能,也將是全系標配的策略。極越已經(jīng)透露,城市領(lǐng)航功能,到今年底會在包括上海在內(nèi)的多個城市可用。
在交互上全力推動語音的使用,取消換擋撥桿、取消門把手,智駕系統(tǒng)布局純視覺方案,極越有不少激進的做法。
整個產(chǎn)品開發(fā)的過程中,因為開發(fā)難度大,夏一平自己也坦誠「一度非常焦慮」。
不過,「我敢說,今天說極越是行業(yè)里智能化的標桿,沒有人會再質(zhì)疑」。
來源:第一電動網(wǎng)
作者:HiEV
本文地址:http://www.vlxuusu.cn/kol/211868
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。