2021年6月17日-19日,由中國(guó)汽車工業(yè)協(xié)會(huì)主辦的第11屆中國(guó)汽車論壇在上海嘉定舉辦。站在新五年起點(diǎn)上,本屆論壇以“新起點(diǎn) 新戰(zhàn)略 新格局——推動(dòng)汽車產(chǎn)業(yè)高質(zhì)量發(fā)展”為主題,設(shè)置“1場(chǎng)閉門峰會(huì)+1個(gè)大會(huì)論壇+2個(gè)中外論壇+12個(gè)主題論壇”,全面集聚政府主管領(lǐng)導(dǎo)、全球汽車企業(yè)領(lǐng)袖、汽車行業(yè)精英,共商汽車強(qiáng)國(guó)大計(jì),落實(shí)國(guó)家提出的“碳達(dá)峰、碳中和”戰(zhàn)略目標(biāo)要求,助力構(gòu)建“雙循環(huán)”新發(fā)展格局。其中,在6月19日上午舉辦的主題論壇“智能座艙創(chuàng)新技術(shù)論壇”上,愛(ài)數(shù)智慧創(chuàng)始人兼CEO、中科院聲學(xué)所研究員張晴晴發(fā)表了主題演講。以下內(nèi)容為現(xiàn)場(chǎng)演講實(shí)錄:
各位好!
我是來(lái)自北京愛(ài)數(shù)智慧科技有限公司的創(chuàng)始人CEO張晴晴,今天之前大家講的報(bào)告更多都是圍繞算法智能化,包括產(chǎn)品在車行業(yè)的應(yīng)用。
我也聽(tīng)到這段時(shí)間有很多車客戶和企業(yè)都在提到數(shù)據(jù)。今天講的報(bào)告是圍繞數(shù)據(jù),講對(duì)話式AI數(shù)據(jù)推動(dòng)智能座艙語(yǔ)音交互。
第一,公司簡(jiǎn)介
第二,智能座艙發(fā)展。
第三,智能座艙數(shù)據(jù)解決方案。
一、公司簡(jiǎn)介。
愛(ài)數(shù)智慧為行業(yè)希望做智能化轉(zhuǎn)型的車企提供相應(yīng)底層數(shù)據(jù)解決方案。圍繞人機(jī)交互的場(chǎng)景,圍繞場(chǎng)景里的核心三個(gè)點(diǎn):語(yǔ)音識(shí)別、語(yǔ)音合成、自然語(yǔ)言理解,這三部分所需要的數(shù)據(jù)都有相應(yīng)的提供和解決方案。
核心服務(wù)有相應(yīng)標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)產(chǎn)品,以及針對(duì)車廠在智能化轉(zhuǎn)型過(guò)程中圍繞智能座艙、智能客服、短視頻營(yíng)銷等其他方面做的方案咨詢,同時(shí)會(huì)圍繞相應(yīng)落地場(chǎng)景體迥數(shù)據(jù)定制采集和標(biāo)簽化服務(wù)。
最后為車廠提供可以進(jìn)行私有化部署的數(shù)據(jù)處理系統(tǒng)。
公司成立到現(xiàn)在五年的時(shí)間,已經(jīng)為頭部車企、車行業(yè)提供解決方案的算法公司、造車新勢(shì)力提供相應(yīng)數(shù)據(jù)解決方案。
這是我們公司的核心人員,我自己在人機(jī)交互領(lǐng)域有17年的相應(yīng)經(jīng)驗(yàn),曾經(jīng)是中科院聲學(xué)所博士,法國(guó)國(guó)家實(shí)驗(yàn)室博士后,也在語(yǔ)音、語(yǔ)言、對(duì)話式AI里參與到很多車企解決方案的落地當(dāng)中。
二、智能座艙發(fā)展。
智能座艙已經(jīng)發(fā)展了很多年,最早時(shí)候主要是對(duì)硬件、打開(kāi)空調(diào)或者車窗調(diào)低調(diào)高的命令控制的運(yùn)用,現(xiàn)在希望人和機(jī)器有更多類型的交互,包括對(duì)話式自然的溝通,比如說(shuō)調(diào)高溫度的時(shí)候,可以說(shuō)我感覺(jué)很熱很冷等自然式對(duì)話式的交互。
除了語(yǔ)音交互外,現(xiàn)在也開(kāi)始進(jìn)入到多模態(tài)狀態(tài),包括視覺(jué)、圖像等都可以圍繞多維度對(duì)用戶行為進(jìn)行分析,是智能座艙很重要的發(fā)展方向。
其中,語(yǔ)音的交互方式本身是信息的主要載體,是座艙里非常重要的落地點(diǎn)。同時(shí)由于在開(kāi)車行進(jìn)過(guò)程中,最早的方式還是用語(yǔ)音交互的方式保證安全。
在座艙語(yǔ)音交互里,能夠用到語(yǔ)音的點(diǎn)是非常多的。一些比較常見(jiàn)的導(dǎo)航、電臺(tái)、內(nèi)容搜索都會(huì)用到語(yǔ)音,包括對(duì)車?yán)镉布O(shè)備進(jìn)行交互可以用到語(yǔ)音。如果出現(xiàn)異常狀況,比如需要緊急呼救求助的狀況也需要涉及到語(yǔ)音的需求。
有三個(gè)主要會(huì)用到的核心算法:語(yǔ)音識(shí)別、語(yǔ)音合成、自然語(yǔ)言理解。
簡(jiǎn)單來(lái)講,語(yǔ)音識(shí)別就是我們說(shuō)一句話,比如說(shuō)“幫我調(diào)低溫度”,機(jī)器需要識(shí)別我說(shuō)這句話的聲音,把它轉(zhuǎn)換成文字,對(duì)機(jī)器來(lái)講要聽(tīng)得清我在說(shuō)什么,“聽(tīng)得清”。
聽(tīng)清了之后會(huì)對(duì)已經(jīng)識(shí)別出來(lái)的文字理解意圖是什么,意圖是調(diào)節(jié)溫度的情況。這種情況需要把意圖識(shí)別理解出來(lái),“聽(tīng)得懂”。
下一個(gè)環(huán)節(jié),機(jī)器需要給我相應(yīng)的回饋,用語(yǔ)音合成播報(bào)音的方式告訴我機(jī)器已經(jīng)完成了相應(yīng)的動(dòng)作,“說(shuō)得好”。
這三個(gè)點(diǎn)都在應(yīng)用,同時(shí)也有和明顯的痛點(diǎn)和問(wèn)題。比如站在語(yǔ)音識(shí)別角度,最大的點(diǎn)是人在說(shuō)話的時(shí)候是有口音的,很多人說(shuō)我說(shuō)普通話不是很標(biāo)準(zhǔn),甚至有的人普通話都說(shuō)的不是很好有方言說(shuō)話。
這種情況下機(jī)器不一定能聽(tīng)得清在說(shuō)什么,所以識(shí)別率會(huì)很差,口音是很重要的點(diǎn)。同時(shí)因?yàn)樽摾锏脑胍魰?huì)帶來(lái)識(shí)別率進(jìn)一步下降。
在語(yǔ)音合成里,希望機(jī)器播報(bào)出來(lái)的聲音是很自然的,甚至可以千人千面由我來(lái)挑選的。但目前我們所看到的情況是機(jī)器的合成聲音很機(jī)械不自然,不像人在說(shuō)話,代入感不好。
自然語(yǔ)言理解是最大的難點(diǎn),如何理解人在表述同一個(gè)意圖的時(shí)候用句的方式千差萬(wàn)別。像我想調(diào)節(jié)溫度的時(shí)候,有可能我根本沒(méi)在說(shuō)調(diào)節(jié)溫度,我在說(shuō)我感覺(jué)我很熱,這是對(duì)意圖很重要的理解點(diǎn)。
對(duì)異常表達(dá)的理解是座艙過(guò)程中對(duì)語(yǔ)料擴(kuò)充要盡可能豐富,通常來(lái)說(shuō)這部分做的不夠好,也可能會(huì)導(dǎo)致機(jī)器完全無(wú)法理解。
目前這三部分在落地的時(shí)候都會(huì)有痛點(diǎn),通常來(lái)講大家本能的第一反應(yīng)是解決方案沒(méi)有做好是算法不夠好。而事實(shí)上過(guò)程中會(huì)發(fā)現(xiàn)人工智能智能化的過(guò)程核心是三個(gè)基礎(chǔ)部分構(gòu)成,由算力、算法、數(shù)據(jù)構(gòu)成。
在其中,相較于算法來(lái)說(shuō),數(shù)據(jù)的影響力才是根本的地方,我們有對(duì)比分析過(guò),基本上不同的孫發(fā),但是用的是同一個(gè)數(shù)據(jù),你的算法差異度不會(huì)很大。但如果你是同一個(gè)算法,數(shù)據(jù)的清洗和選擇不一樣,結(jié)果是截然不同的。所以系統(tǒng)的增益主要來(lái)自于數(shù)據(jù)部分。
數(shù)據(jù)并不是大家所想的那樣,從人發(fā)聲的時(shí)刻收集到語(yǔ)音后,可以把語(yǔ)音送到智能化系統(tǒng)里去了。其實(shí)不然,過(guò)程中需要經(jīng)過(guò)數(shù)據(jù)結(jié)構(gòu)化清洗的過(guò)程,數(shù)據(jù)有點(diǎn)像原油,原油被真正加到汽油里的過(guò)程需要經(jīng)過(guò)很多工序,最后才能得到真正可以用的型號(hào)。
數(shù)據(jù)也是一樣的,從最開(kāi)始左側(cè)的原始音頻走到右側(cè)送到系統(tǒng)里迭代的數(shù)據(jù)會(huì)經(jīng)過(guò)很多專業(yè)步驟,每一個(gè)步驟的處理好壞與否都會(huì)影響到最后模型的性能。
對(duì)數(shù)據(jù)來(lái)講,結(jié)構(gòu)化的“質(zhì)”決定了智能系統(tǒng)的性能。除了“質(zhì)”以外,很重要的點(diǎn)是“量”。
藍(lán)圖的這條線是大家在智能化過(guò)程中主要用到的深度學(xué)習(xí)的算法,而紅色的這條線是過(guò)去比較傳統(tǒng)的淺層學(xué)習(xí)的方法。大家看藍(lán)色的這條線會(huì)發(fā)現(xiàn)兩個(gè)點(diǎn),首先看到趨勢(shì),橫坐標(biāo)是送到模型里的訓(xùn)練數(shù)據(jù)量,縱坐標(biāo)是識(shí)別的性能,送進(jìn)去的數(shù)據(jù)量越多,識(shí)別的性能越好。
在過(guò)程中,最上面的點(diǎn)是目前屬于互聯(lián)網(wǎng)的頭部公司每年在AI上所投入的結(jié)構(gòu)化數(shù)據(jù)量。而下面的點(diǎn)是行業(yè)客戶目前所投入的量級(jí)。
基本上會(huì)看到量級(jí)的差異比較大,像互聯(lián)網(wǎng)型公司,每年增量在結(jié)構(gòu)化數(shù)據(jù)上投入的小時(shí)數(shù)在10萬(wàn)小時(shí)量級(jí)的增量數(shù)據(jù)量。所以,做人機(jī)交互的互聯(lián)網(wǎng)型公司的識(shí)別性能會(huì)更好。數(shù)據(jù)量對(duì)模型性能影響也是非常關(guān)鍵的?!百|(zhì)”和“量”都是需要考慮的點(diǎn)。
大家會(huì)想到數(shù)據(jù)只要往里加就可以得到更好的性能,是不是要投入很多成本才有可能獲得相應(yīng)的收益?其實(shí)并不見(jiàn)得大家要投入這么多才能獲得相應(yīng)的收益,在數(shù)據(jù)行業(yè)里提出了“數(shù)據(jù)配比二八原則”,在車企車的行業(yè)里,80%的數(shù)據(jù)是共性數(shù)據(jù),這些數(shù)據(jù)可以由標(biāo)準(zhǔn)化的數(shù)據(jù)集構(gòu)成為大家搭建,而這部分?jǐn)?shù)據(jù)可以理解為完全的一次性投入,一次性投入之后可以用在很多功能點(diǎn)上的迭代優(yōu)化里。真正需要定制的數(shù)據(jù)只在總量里占有20%就夠了。
真正投入的總量從時(shí)間富力來(lái)看,投入成本并不高,獲得的收益也是不錯(cuò)的。
給大家一個(gè)比較形象的數(shù)據(jù)來(lái)呈現(xiàn),左邊這張圖體現(xiàn)的是車的座艙里有4個(gè)場(chǎng)景和功能點(diǎn),每個(gè)功能點(diǎn)為了迭代模型的性能,現(xiàn)在不遵循二八原則完全來(lái)定制的話,現(xiàn)在有的車企也還在用這樣的方法,相對(duì)來(lái)說(shuō)比較安全。
但用這樣的方式會(huì)導(dǎo)致每個(gè)功能點(diǎn)都要投入1000小時(shí),總量投入了4000小時(shí)的成本,但單一看每個(gè)功能點(diǎn)只享有1000小時(shí)的訓(xùn)練數(shù)據(jù)量,量是有限的。
反觀右邊的這張圖,一個(gè)是導(dǎo)航,一個(gè)是音樂(lè)控制,一個(gè)是硬件控制,都可以。但這會(huì)伴隨對(duì)話式,會(huì)涉及有帶口音的,有方言的,這些數(shù)據(jù)作為底層數(shù)據(jù)可以共享,如果拿出80%的數(shù)據(jù)進(jìn)行共享(1600小時(shí)),在每個(gè)功能點(diǎn)上僅投入400小時(shí)定制數(shù)據(jù)量的時(shí)候,最后會(huì)發(fā)現(xiàn)總投入成本只有3200小時(shí)。但是在每一個(gè)功能點(diǎn)所享有的訓(xùn)練數(shù)據(jù)量卻是2000小時(shí)。投入的ROI會(huì)比左邊的純定制高很多。
使用標(biāo)準(zhǔn)數(shù)據(jù)集在于立木等于可取,數(shù)據(jù)的合規(guī)性、安全性會(huì)得到更好的保障,整體幫助車企更快速地進(jìn)行智能化迭代優(yōu)化過(guò)程起到很好的推波助瀾作用。
三、智能出行數(shù)據(jù)解決方案。
目前愛(ài)數(shù)智慧擁有全球第一大對(duì)話式訓(xùn)練數(shù)據(jù)集,手上一共有15萬(wàn)小時(shí)全部標(biāo)簽化好的數(shù)據(jù)。什么叫標(biāo)簽化好的?數(shù)據(jù)都是進(jìn)行多維度標(biāo)簽,除了有語(yǔ)音對(duì)應(yīng)的文字外,還會(huì)有性別、年齡區(qū)間、口音地域等多維度標(biāo)簽幫助大家從更多維度對(duì)模型進(jìn)行優(yōu)化。會(huì)含有對(duì)話式、命令控制朗讀式的數(shù)據(jù)。
特別把語(yǔ)種分別情況列出來(lái),在中國(guó)境內(nèi)有很多方言數(shù)據(jù),現(xiàn)在車企在落地過(guò)程中方言是很頭痛的問(wèn)題,大家可以考慮使用標(biāo)準(zhǔn)數(shù)據(jù)集,幫助大家快速進(jìn)行初始迭代過(guò)程。特別提到中英文混合的數(shù)據(jù),這種數(shù)據(jù)在車的座艙里非常容易出現(xiàn),經(jīng)常做電臺(tái)、音樂(lè)交互時(shí)會(huì)涉及到中英混合的現(xiàn)場(chǎng),比如說(shuō)FM199.2,像“FM”就是英文部分。這種現(xiàn)象在很多物聯(lián)網(wǎng)范疇里都會(huì)出現(xiàn),很好的解決方案是通過(guò)標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)集幫大家快速補(bǔ)齊能力。
車企有在出海,“一帶一路”、歐盟等地區(qū)都有。特別呈現(xiàn)外語(yǔ)的數(shù)據(jù)基礎(chǔ)能力,比較熱點(diǎn)的大語(yǔ)種都有覆蓋。
針對(duì)目前在車行業(yè)里涉及到的幾個(gè)主要場(chǎng)景給大家做的訓(xùn)練數(shù)據(jù)產(chǎn)品推薦,有詳細(xì)地列出來(lái)包括應(yīng)用和涉及到的技術(shù),包括會(huì)有哪些關(guān)鍵的問(wèn)題,比如說(shuō)有方言識(shí)別、口音識(shí)別、數(shù)字識(shí)別、喚醒詞等等,對(duì)應(yīng)的數(shù)據(jù)推薦。有詳細(xì)的產(chǎn)品列表,大家感興趣隨后可以到展臺(tái)上進(jìn)行交流。
智能客服和營(yíng)銷是車行業(yè)比較關(guān)注的,現(xiàn)在有的車企跟我們問(wèn)詢除了線上營(yíng)銷外,還涉及到店面線下?tīng)I(yíng)銷的需求,在這部分給大家分類做了相應(yīng)數(shù)據(jù)產(chǎn)品推薦。在線上主要是用到電話信道數(shù)據(jù),在線下是通過(guò)面對(duì)面對(duì)話數(shù)據(jù)幫大家進(jìn)行定制優(yōu)化。
(3)會(huì)議場(chǎng)景部分也會(huì)有車企應(yīng)用感興趣。核心是對(duì)話數(shù)據(jù)的解決,所以有做相應(yīng)的推薦。
對(duì)數(shù)據(jù)服務(wù)企業(yè)來(lái)講,數(shù)據(jù)安全和合規(guī)性是立命之本。在這方面不斷投入,愛(ài)數(shù)智慧是國(guó)內(nèi)第一批拿到ISO27701認(rèn)證的數(shù)據(jù)服務(wù)商,27701是全球最新的個(gè)人隱私認(rèn)證,一直跟隨國(guó)外的GDPR以及國(guó)內(nèi)的數(shù)據(jù)安全法,在數(shù)據(jù)處理上遵循國(guó)際國(guó)內(nèi)的最高標(biāo)準(zhǔn)。
各位都有自己的私域數(shù)據(jù),從安全角度來(lái)講數(shù)據(jù)最好能握在各位手上,最好不要離開(kāi)自己的服務(wù)器。針對(duì)這種場(chǎng)景提供相應(yīng)數(shù)據(jù)處理系統(tǒng)的私有化部署能力,展現(xiàn)了三個(gè)數(shù)據(jù)處理平臺(tái):
(1)語(yǔ)音標(biāo)注審核平臺(tái)。主要針對(duì)交互、電臺(tái)等聲音處理,可以提供私有化部署及相應(yīng)服務(wù)。
(2)文本標(biāo)注審核平臺(tái)。主要涉及到句式的擴(kuò)充,這部分會(huì)做意圖標(biāo)簽化,用文本來(lái)解決。
(3)音頻/視頻多模態(tài)標(biāo)注審核平臺(tái)。今年開(kāi)發(fā)了新的多模態(tài)標(biāo)注審核平臺(tái),可以在平臺(tái)上同步處理音頻及對(duì)應(yīng)視頻,做很多高維內(nèi)容選擇,目前處理的最高維度接近1000倍維度的數(shù)據(jù)。
將部分?jǐn)?shù)據(jù),特別是車行業(yè)里把車的噪聲數(shù)據(jù)及車內(nèi)語(yǔ)音交互式數(shù)據(jù)放到了今年發(fā)布的數(shù)據(jù)開(kāi)源社區(qū)MagicHub.io,大家感興趣可以到開(kāi)源社區(qū)里進(jìn)行相應(yīng)數(shù)據(jù)下載和試用,如果有更多感興趣的歡迎咨詢我們。
今天我的報(bào)告就到這里,謝謝大家!
來(lái)源:第一電動(dòng)網(wǎng)
作者:王鳴幽
本文地址:http://www.vlxuusu.cn/news/renwu/149548
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。