為期五天的全球頂級的年度計算機視覺會議,CVPR(計算機視覺與模式識別)已經(jīng)在加利福尼亞州的長灘市落下帷幕。
計算機視覺在自動駕駛擁有著一席之地,甚至有從業(yè)者認為純視覺可以實現(xiàn)自動駕駛,所以在CVPR2019舞臺,自動駕駛也成為了其中重要的內(nèi)容。包括國外的Waymo、Argo、NVIDIA、Tesla、Algolux等,國內(nèi)的美團、百度、馭勢等公司都紛紛在CVPR 2019上亮相或發(fā)布重要產(chǎn)品。
即便是不參會的國內(nèi)自動駕駛公司,也有相當一部分會員工,不管是因公出差還是個人興趣,都遠涉重洋來到加州長灘,參加一年一度的計算機視覺頂級會議。
在公司層面,Waymo和Argo先后在CVPR 2019上宣布開放數(shù)據(jù)集,百度則宣布推出純視覺的L4級別自動駕駛解決方案、美團無人配送團隊獲得CVPR 2019障礙物軌跡預測挑戰(zhàn)賽第一名,NVIDIA和Algolux則在攝像頭方面有新動作。
至于全球各地5160篇論文,被收錄1294篇的梗,這里就不一一介紹了。下面看看自動駕駛領(lǐng)域,更有意思的內(nèi)容。
01 Waymo與Argo開放數(shù)據(jù)集
在CVPR 2019上,全球自動駕駛領(lǐng)頭羊Waymo發(fā)布了自動駕駛數(shù)據(jù)集Waymo Open Dataset,隨后福特旗下的獨立自動駕駛公司Argo也宣布開放自動駕駛數(shù)據(jù)集Argoverse。
在2019年3月Aptiv開放的自動駕駛數(shù)據(jù)集Aptiv NuScenes數(shù)據(jù)集前,研究人員發(fā)布的數(shù)據(jù)集相對小,并且范圍有限,通常也僅限于攝像頭圖像數(shù)據(jù)。隨著Waymo和Argo的數(shù)據(jù)集開放,自動駕駛領(lǐng)域迎來更為豐富的數(shù)據(jù)集。
Aptiv NuScenes數(shù)據(jù)集包括了圖像激光雷達和毫米波雷達數(shù)據(jù),而Waymo開放的數(shù)據(jù)集Waymo Open Dataset則聲稱擁有3000個場景,是NuScenes的三倍,并且相機和激光雷達信息之間更好的傳遞,更重要的是,Waymo提供了五個激光雷達傳感器的數(shù)據(jù),而Aptiv NuScenes只有一個。
福特旗下的Argo的數(shù)據(jù)集Argoverse則有不同之處,在規(guī)模上,這個數(shù)據(jù)集只涵蓋了邁阿密和匹茲堡錄制的113個場景,包括了9個攝像頭的數(shù)據(jù)以及2個激光雷達傳感器的數(shù)據(jù)。
但是,Argoverse數(shù)據(jù)集是唯一一個包括高清地圖數(shù)據(jù)的數(shù)據(jù)集。目前,Argo在自己運營的區(qū)域內(nèi)建立了自己的高清地圖,覆蓋了匹茲堡和邁阿密290公路的道路,涵蓋了位置、海拔、交通信號等信息。Argo對其映射解決方案的一個特點是能夠通過準確了解尋找符號和信號的位置來優(yōu)化處理,而不必掃描整個場景尋找信號。
02 百度的方案和美團的頭名
作為計算機視覺的頂級會議,怎么少得了自動駕駛的純視覺解決方案呢!作為純視覺解決方案的擁躉Tesla,并且計劃在2020年推100萬輛RoboTaxi的Tesla,并沒有在CVPR2019上展示自己的方案,畢竟距離4月份的Tesla AutonomousDay剛過去沒多久,所以Tesla展示了Roadster 2。
但是,來自中國的百度Apollo,則推出了純視覺的L4級自動駕駛城市道路閉環(huán)解決方案——百度Apollo Lite。這個發(fā)布驗證了此前業(yè)內(nèi)流傳的百度重回L4純視覺方案的消息。
按照百度官方的說法,Apollo Lite能夠支持對10路攝像頭(Tesla Autopilot應(yīng)該是8個攝像頭)、200楨/秒的數(shù)據(jù)進行處理,其他數(shù)據(jù)包括單視覺鏈路丟幀率控制在千分之五以內(nèi),前向障礙物檢測視距為240米。
在6月21日,百度在長沙拿到了45張自動駕駛測試牌照,按照官方計劃,百度計劃在下半年推出100輛RoboTaxi。但Apollo Lite目前是在北京稻香湖等路段測試。未來,百度的L4級別自動駕駛,會采取此前的激光雷達技術(shù)路線還是純視覺的技術(shù)路線呢?
另外一個中國互聯(lián)網(wǎng)巨頭美團(美團市值超過了百度),旗下的無人配送團隊(這是送外賣起家的美團的剛需),則斬獲了CVPR 2019障礙物軌跡預測挑戰(zhàn)賽第一名。
這個比賽主要是讓來自學術(shù)界和工業(yè)界的研究人員和工程師,討論自動駕駛中計算機視覺的應(yīng)用。具體就是在比賽中,各參賽者根據(jù)每個障礙物過去3秒的運動軌跡,來預測未來3秒的運動軌跡。
障礙物的類型包括了四種類型:行人、自行車、大型機動車、小型機動車,最終美團以1.3425的成績獲得這個比賽的第一名。美團之所以能拿頭名,是因為美團無人配送在研究障礙物對無人配送車的影響。
03 最新的攝像頭方案
首先介紹NVIDIA的方案在城市交通的應(yīng)用,作為GPU起家的NVIDIA在視覺方面的能力毋庸置疑,在CVPR 2019上,NVIDIA則介紹了CityFlow的一個多目標多攝像頭車輛跟蹤和再識別的城市尺度基準。
利用交通攝像頭作為傳感器進行城市交通優(yōu)化,推動了多目標多攝像頭(MTMC)跟蹤技術(shù)的發(fā)展。這項工作介紹了CityFlow,這是一個城市規(guī)模的交通攝像頭數(shù)據(jù)集,包含超過3小時的同步高清視頻,來自10個十字路口的40個攝像頭,兩個同步攝像頭之間的最長距離為2.5公里。
CityFlow是城市環(huán)境中空間覆蓋率和攝像機/視頻數(shù)量最大的數(shù)據(jù)集。數(shù)據(jù)集包含超過200K的帶注釋的邊界框,涵蓋了廣泛的場景、視角、車輛模型和城市交通流條件。提供相機幾何和校準信息,以協(xié)助時空分析。
此外,基準測試的一個子集可用于基于圖像的車輛重新識別(ReID)任務(wù)。NVIDIA對MTMC跟蹤、多目標單攝像機(MTSC)跟蹤、目標檢測和基于圖像的ReID等基線/最新方法進行了廣泛的實驗評估,分析了不同的網(wǎng)絡(luò)架構(gòu)、損失函數(shù)、時空模型及其組合對任務(wù)效率的影響。
在2019年人工智能城市挑戰(zhàn)賽上,NVIDIA發(fā)布了基準測試,并推出了一個評估服務(wù)器,允許研究人員比較他們最新技術(shù)的性能。NVIDIA希望這個數(shù)據(jù)集能夠催化這一領(lǐng)域的研究,推動最先進的技術(shù)向前發(fā)展,并導致部署在現(xiàn)實世界中的交通優(yōu)化。
Algolux的方案就厲害多了,這家公司宣布和蒙特利爾大學、普林斯頓大學共同研發(fā)了一種新方法,采用傳統(tǒng)的CMOS攝像頭,如智能手機或汽車上的CMOS攝像頭,可以“透視”被墻壁或其他場景遮擋的物體。
Algolux聲稱,開發(fā)人員已經(jīng)為非視距(NLOS)成像實現(xiàn)了前所未有的分辨率。該技術(shù)使相機傳感器第一次能夠以高分辨率和角落周圍的顏色看到物體。利用這項技術(shù),開發(fā)人員能夠重建交通標志和其他被一些較大物體或墻壁隱藏的其他3D物體的高質(zhì)量圖像。
自動駕駛技術(shù)嚴重依賴于雷達和一系列攝像機,該技術(shù)有望成為改進自動駕駛技術(shù)的重大發(fā)展。它將確保在道路情況困難且視野受阻的地區(qū)為自動駕駛車輛提供更安全的導航。
與此同時,來自卡內(nèi)基梅隆大學,多倫多大學和倫敦大學學院的研究人員展示了一種非視距(NLOS)成像技術(shù),能夠計算出彎曲物體的毫米級和微米級形狀。非視距成像旨在通過分析它們在可見場景表面上的間接反射來恢復被遮擋的物體。
卡內(nèi)基梅隆大學的研究得到了美國國防高級研究計劃署的Reveal計劃的支持,該計劃正在開發(fā)NLOS功能。更為重要的是,該研究獲得CVPR 2019最佳論文獎!
人是依靠視覺來安全駕駛,但背后是高度精密的大腦和經(jīng)驗判斷,這是目前計算機處理芯片所不具備的能力。
計算機視覺是自動駕駛領(lǐng)域不可獲取的一環(huán),但是,純視覺的方案能完全實現(xiàn)自動駕駛嗎?類似Algolux和卡內(nèi)基梅隆大學的研究,或許能夠給我們答案。
來源:車智
本文地址:http://www.vlxuusu.cn/news/jishu/93434
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。