
文章&圖片來源:Fastcompany,作者:MARK WILSON
那是井蓋還是桌子上的蜻蜓?那是一只綠色的鬣蜥還是一只帶著堅果奔跑的松鼠?馬路中間的那個是滑板還是鱷魚?
如果是人類,那么遇到上述情況一般都能很容易地給出正確答案,但要是換成世界上最好的圖像識別人工智能(AI),它卻找不到任何線索。
美國芝加哥大學(xué)、華盛頓大學(xué)、加州大學(xué)伯克利分校正在做的就是要建立一份終極照片檔案,約7000張照片中的每一幅圖像都經(jīng)過精心挑選,為的就是能欺騙最先進(jìn)的圖像識別技術(shù)。
“目前的(機(jī)器學(xué)習(xí))模型很脆弱。”加州大學(xué)伯克利分校計算機(jī)科學(xué)專業(yè)博士生丹·亨德瑞克(Dan Hendrycks)說,“雖然其他研究使用人工數(shù)據(jù)來研究魯棒性,但我們發(fā)現(xiàn),各種模型在真實數(shù)據(jù)(與真實照片)上犯著驚人且高度一致的錯誤?!?/p>
為了理解為什么這很重要,讓我們倒回去看下歷史。
在過去的幾年里,圖像識別技術(shù)發(fā)展的非??欤Ч沧兊迷絹碓胶?。這在很大程度上要歸功于斯坦福大學(xué)創(chuàng)建的一個不斷增長的開放數(shù)據(jù)集ImageNet。
現(xiàn)在,這個集合已有1400多萬張照片,每張照片都用“tree”和“sky”這樣的標(biāo)識符標(biāo)記。
這個龐大的數(shù)據(jù)庫就像是一個訓(xùn)練集,或者說是為新AI系統(tǒng)學(xué)習(xí)如何識別圖像提供參考,就像一個蹣跚學(xué)步的孩子可以參照一本圖畫書來慢慢地學(xué)習(xí)新單詞一樣。
使用ImageNet訓(xùn)練的AI——比如微軟的Bing——獲得了極高的精準(zhǔn)度,能夠以高達(dá)95%的準(zhǔn)確率識別物體。這實際上比人類做同樣的工作還要好。

但是,縮小最后5%的準(zhǔn)確率差距是一個非常大的問題。自2017年以來,計算機(jī)在識別圖像方面沒有變得更準(zhǔn)確。這就是為什么研究人員正在探索如何理解計算機(jī)似乎無法解析的那部分少數(shù)圖像。
相關(guān)工作人員所做的,是手動在Flickr上尋找他們認(rèn)為可能混淆軟件的照片。他們將這些照片與在ImageNet上訓(xùn)練的AI模型進(jìn)行測試,如果這些圖像讓系統(tǒng)困惑,這些照片就會被添加到其新數(shù)據(jù)集中,并被命名為ImageNet-A。
可以說,這7000張照片就是ImageNet的對立面,AI的準(zhǔn)確率也從高于90%下降到僅僅2%。是的,你沒有看錯。世界上最好的視覺AI模型看一張照片100次就會有98次被搞糊涂。
為什么AI系統(tǒng)不能理解這些圖像,這個問題很復(fù)雜。
如今,AI的提高傾向于堆積大量數(shù)據(jù)并根據(jù)最終結(jié)論判斷其準(zhǔn)確性,而不是依據(jù)達(dá)到這個目標(biāo)的過程。
換句話來說,如果AI看到了足夠多的樹的形態(tài),它就可以在新的照片中把樹識別出來,然后我們也就認(rèn)為系統(tǒng)是成功的。(這種重復(fù)的任務(wù)被稱為機(jī)器學(xué)習(xí))
問題是,我們不知道AI到底是為什么決定一棵樹就是一棵樹的。是形狀嗎?顏色嗎?還是背景?質(zhì)地?難道是因為樹木有一些人類從未認(rèn)識到的核心幾何結(jié)構(gòu)?
我們不知道。我們判斷AI的標(biāo)準(zhǔn)是它的答案,而不是中途的推理。
這意味著人們可以從AI中獲得各種意想不到的偏差,而當(dāng)AI系統(tǒng)被用于自動駕駛汽車等技術(shù)或刑事司法等領(lǐng)域時,這就構(gòu)成了一個重大問題。
這也意味著圖像識別系統(tǒng)并不是真正的智能,他們更像是玩匹配游戲的專家。

構(gòu)建ImageNet-A是為了欺騙AI,以發(fā)現(xiàn)為什么某些圖像會混淆這些系統(tǒng)。
例如,當(dāng)AI將松鼠的圖像錯誤地理解為海獅時,我們就能發(fā)現(xiàn)它缺乏更深層次的智能和推理能力。該系統(tǒng)僅依賴于這些動物的紋理,而沒有考慮它們的相對大小或形狀來進(jìn)行識別。
“需要了解物體形狀的照片似乎最具有欺騙性。”亨德瑞克解釋說。
通過ImageNet-A,研究人員成功地發(fā)現(xiàn)了視覺人工智能中的7000個盲點。這個數(shù)字算多算少?是否意味著把這些圖像放進(jìn)一個新的訓(xùn)練集就能彌補(bǔ)系統(tǒng)的缺點?很可能不會。
基于現(xiàn)實世界中的多樣性和復(fù)雜性,對AI使用這些圖像進(jìn)行的訓(xùn)練可能不會教會數(shù)據(jù)模型如何有效地管理所有的視覺輸入。
對此,亨德瑞克給出的回答是:“收集和標(biāo)記1萬億張圖像可能會解決一些模型盲點,但當(dāng)新的場景發(fā)生和世界發(fā)生變化時,與之前的每個盲點匹配很可能都會失敗?!?/p>
換句話說,僅僅將越來越多的照片添加到當(dāng)前的機(jī)器學(xué)習(xí)數(shù)據(jù)集中并不能解決其邏輯的核心缺陷。
總會有一些計算機(jī)以前沒有看到過的圖像,進(jìn)而無法準(zhǔn)確識別。那么研究人員能做些什么來縮小這5%的差距呢?
亨德瑞克表示,他們需要開發(fā)出現(xiàn)代機(jī)器學(xué)習(xí)之外的新方法,來創(chuàng)建更復(fù)雜的AI系統(tǒng)?;蛘撸贿@么做——讓人類繼續(xù)保持相對于機(jī)器的自以為是的優(yōu)越感,哪怕再多一點點時間也好。
來源:第一電動網(wǎng)
作者:汽車商業(yè)評論
本文地址:http://www.vlxuusu.cn/kol/95572
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。