手机免费看av网站|婷婷丁香在线观看|日本另类在线观看|国产刺激高潮免|亚洲一区亚洲二区|激情视频在线播放视频一区|亚洲五月蜜臀aV|丝袜美腿亚洲av电影|欧美多人性爱成人综合在线|日韩黄色成人视频

  1. 首頁
  2. 大牛說
  3. 對話星塵數(shù)據(jù)章磊:大模型數(shù)據(jù)標(biāo)注,需要擁有專家級知識

對話星塵數(shù)據(jù)章磊:大模型數(shù)據(jù)標(biāo)注,需要擁有專家級知識

9月20日的直播,我們邀請了星塵數(shù)據(jù)創(chuàng)始人、CEO章磊,共同討論在自動駕駛和大模型發(fā)展的大背景下,數(shù)據(jù)標(biāo)注行業(yè)將如何配合迭代進(jìn)化。

圖片

嘉賓精彩發(fā)言及觀點:

  • 當(dāng)前數(shù)據(jù)標(biāo)注的工具越來越復(fù)雜,管理越來越細(xì)致,自動化的算法要求越來越高;

  • 隨著自動駕駛的發(fā)展,我們會發(fā)現(xiàn)數(shù)據(jù)量本身其實不是問題,更重要的是數(shù)據(jù)價值;

  • 大模型標(biāo)注需要你像一個完整的人,需要用到大量的知識,對人的要求非常高,甚至需要具備一些專家的知識才能夠去進(jìn)行標(biāo)注;

  • 未來每一個行業(yè)都可能需要大模型,那么大模型怎么去落地,怎么產(chǎn)生直觀的效果提升辦公效率或者提高產(chǎn)出質(zhì)量等會很關(guān)鍵。

以下為直播聊天實錄,有所刪減,完整直播視頻請查看「智車星球」視頻號:

智車星球數(shù)據(jù)標(biāo)注這幾年有什么變化?有觀察到哪些趨勢?

章磊:數(shù)據(jù)的復(fù)雜程度和需求的復(fù)雜程度越來越高。幾年前是2D的圖像識別,后來是3D識別,然后是2D和3D融合、BEV、4D標(biāo)注等等。越來越多的技術(shù)方案,標(biāo)注規(guī)則也越來越細(xì),對標(biāo)注人員的要求也越來越高。

對于我們,挑戰(zhàn)主要有幾個,一是標(biāo)注工具越來越復(fù)雜,二是管理得越來越細(xì)致,三是自動化的算法要求越來越高。以前可能一個算法就可以進(jìn)行預(yù)標(biāo)注或者輔助標(biāo)注,現(xiàn)在得有七八個甚至十幾個算法做輔助配合,才能夠把一個標(biāo)注的結(jié)果做到自動化。

目前行業(yè)主要有幾種發(fā)展策略,一是進(jìn)行人力運(yùn)營的優(yōu)化,比如說將職高院?;蛘邔W(xué)校納入管理體系,讓人力變得更便宜,或者增加一些人力管控方案。

另外一種策略是商務(wù)路線或者銷售路線,去打大客戶,保證長期穩(wěn)定的項目,這樣也能保證一定的利潤。

第三種是做營銷路線,這種可能不賺錢,甚至是貼錢,但先把規(guī)模做大,然后通過融資滾動起來。

還有一種是我們走的技術(shù)路線,通過自動化的輔助標(biāo)注,加上數(shù)據(jù)閉環(huán)的迭代,真正有效地降低標(biāo)注成本,提高標(biāo)注效率。這條路線相對不能在比較短的時間內(nèi)產(chǎn)生比較好的效果,比如一個算法迭代一版可能就是一到兩個月,要真正迭代出效果,可能需要在一個方向花費(fèi)一年、兩年甚至更長的時間。

這么長的一個時間周期,對于商務(wù)合作、運(yùn)營管理以及整個公司的運(yùn)作都是挑戰(zhàn)和難度,但我們相信算法可以降低90%以上的人力成本,也可以大幅提升交付效率,滿足整個行業(yè)的需求。

但從一個技術(shù)人員的角度來說,技術(shù)本身都沒有難點,只要在時間和資源無限的情況下,沒有一個技術(shù)是因為認(rèn)知而導(dǎo)致有門檻的。但這是理想情況,現(xiàn)實情況下,你的時間節(jié)點、資源、人力和規(guī)劃都不可能是完美的,所以如何對任務(wù)進(jìn)行編排、分解、每一個任務(wù)怎樣去協(xié)同,是比較有挑戰(zhàn)的。本質(zhì)上這是個任務(wù)管理工作,你得在認(rèn)知算法的前提下進(jìn)行管理,另外還有就是要把招人和管理這兩件事做好。

智車星球:如何看待和自動駕駛車企的合作競爭,隨著自動標(biāo)注的自動化比例不斷提升和大模型的發(fā)展,車企有可能自己來做標(biāo)注嗎?

章磊:我們是產(chǎn)業(yè)鏈的一環(huán),是基礎(chǔ)設(shè)施算法,自研就要考慮投入產(chǎn)出比這件事。

前兩年很多大廠因為要滿足市值維護(hù)和不斷提升股價的需求,它需要不斷擴(kuò)充業(yè)務(wù)邊界。但我覺得這不是一個常態(tài),一個成熟的市場應(yīng)該是大家各自分工,各自做最專業(yè)的事情。

當(dāng)然我們不能完全排除車廠自己去做標(biāo)注工作,一方面內(nèi)部迭代可能效率會更高,第二數(shù)據(jù)相對會更安全,基于這兩點肯定會有公司自己去做。

但任何一個方案都不是100%去替代其他東西的,就像電視機(jī)出來那么多年,收音機(jī)仍然存在。

智車星球:標(biāo)注企業(yè)是否會始終聚焦在標(biāo)注,還是說會有發(fā)展成人工智能公司?

章磊:我們的定位并不是一家數(shù)據(jù)標(biāo)注公司,我們是一家數(shù)據(jù)的基礎(chǔ)設(shè)施公司。

我們處理的數(shù)據(jù)實際上是AI、機(jī)器學(xué)習(xí)要用到的數(shù)據(jù),這其實是一個比較新的領(lǐng)域。我們想解決的是AI數(shù)據(jù)層的問題,這些問題不僅僅是數(shù)據(jù)標(biāo)注。隨著自動駕駛的發(fā)展,我們會發(fā)現(xiàn)數(shù)據(jù)量本身其實不是問題,更重要的是數(shù)據(jù)價值。

我們認(rèn)為最終一個完整的數(shù)據(jù)閉環(huán),它如果能解決數(shù)據(jù)的入庫、流程編排、預(yù)處理、數(shù)據(jù)的價值發(fā)現(xiàn)以及數(shù)據(jù)的送標(biāo),數(shù)據(jù)驗收,還有模型訓(xùn)練過程管理和模型價值指標(biāo)分析等等這些工作,那么這個數(shù)據(jù)閉環(huán)可以極大加快算法的迭代過程。

還有隨著大模型的發(fā)展,我們發(fā)現(xiàn)大模型需要的數(shù)據(jù)也是五花八門。今年下半年的一個趨勢,就是垂類的應(yīng)用。垂類應(yīng)用它就需要業(yè)務(wù)相關(guān)的數(shù)據(jù),把它分成預(yù)訓(xùn)練數(shù)據(jù)、人類偏好數(shù)據(jù)等等這些流程的數(shù)據(jù)策略。

首先有了數(shù)據(jù)策略以后,就可以進(jìn)行一個任務(wù)的編排,然后做數(shù)據(jù)的生產(chǎn)。之后就可以通過數(shù)據(jù)閉環(huán)去檢測模型缺什么,可以通過benchmark或者其他一些方式去發(fā)現(xiàn)模型的缺陷,然后進(jìn)一步的去迭代和改進(jìn)。

我們在做的另一件事就是benchmark本身——怎么去衡量算法和模型。每家客戶都有自己內(nèi)部的一些指標(biāo),但這個指標(biāo)或者說你沿著這條路徑走了很長時間以后,你不知道自己是領(lǐng)先還是落后,與行業(yè)平均水平相比到底如何。這就需要一家第三方公司去給一些反饋和建議,這也是未來數(shù)據(jù)層比較好的一個方向。

智車星球:目前高速NOA做數(shù)據(jù)標(biāo)注的話,數(shù)據(jù)量大概是多少?

章磊:高速場景一般比較干凈,我們認(rèn)為一般20~50萬幀的數(shù)據(jù)量,是可以訓(xùn)練出一款比較好的算法。這里的一幀是指所有傳感器的一幀,所以一幀可能包括了有好幾張圖片。

智車星球:數(shù)據(jù)孤島這個問題現(xiàn)在還存在嗎?

章磊:數(shù)據(jù)孤島的定義分企業(yè)內(nèi)和企業(yè)外。企業(yè)內(nèi)的數(shù)據(jù)孤島是每一個部門有自己的數(shù)據(jù),很多大企業(yè)各個部門之間數(shù)據(jù)很難打通,這是一種。另外一種是企業(yè)和企業(yè)之間,數(shù)據(jù)孤島的原因是源于交易雙方的不信任。

當(dāng)然也會有改變,如果自動駕駛最后變成一個標(biāo)準(zhǔn)化的問題,那么就像小學(xué)、初中、高中課本,我們是可以統(tǒng)一去定制的。到了大學(xué)里面,每家客戶的場景不一樣,我們就按照自定義的方式去做定制化的開發(fā)。

智車星球:現(xiàn)在星塵也有很多大模型客戶,請您介紹一下大模型的數(shù)據(jù)標(biāo)注有哪些的特點和難點?

章磊:CV的標(biāo)注可能更需要像個運(yùn)動員,能夠高效且非常整齊地做一個動作,比如說把車識別出來。而在NLP中,更需要你像一個完整的人,比如數(shù)學(xué)的問題或者代碼問題集,這可能需要你用到大量的知識去把它寫出來。

從這個角度來講,對人的要求非常高,甚至需要具備一些專家的知識才能夠去進(jìn)行標(biāo)注。另外,你要根據(jù)他的垂類應(yīng)用場景去幫他設(shè)計一整套的數(shù)據(jù)集,里面包括開源數(shù)據(jù)、閉源數(shù)據(jù)和專業(yè)的私有化數(shù)據(jù),從這些角度規(guī)劃和設(shè)計,然后把這些數(shù)據(jù)生產(chǎn)出來,然后再進(jìn)行模型訓(xùn)練。

智車星球:最近Scale AI在嘗試一些新業(yè)務(wù),尋找第二增長曲線,但目前還沒有找到另一個核心支撐。您怎么看?

章磊:Scale AI做了很多工具,比如管理工具、測試工具、開發(fā)工具等。我們可以看到它從一家數(shù)據(jù)標(biāo)注公司已經(jīng)變成了一家數(shù)據(jù)閉環(huán)和infer的這么一家公司,它覆蓋的面會更大。

當(dāng)然如果從財報看,直至上個季度它的大模型收入體量并不大,但是結(jié)果永遠(yuǎn)是滯后的。我們從投資人的角度或者說從未來去看,我們能看到一個明顯趨勢,過去我們服務(wù)的是一小部分懂算法的人,但是今天或者將來會越來越多去服務(wù)各行各業(yè)的人。每一個行業(yè)都可能會需要大模型,那么大模型怎么去落地,怎樣產(chǎn)生直觀的效果提升辦公效率或者提高產(chǎn)出質(zhì)量等會很關(guān)鍵。

對于大模型這樣的需求,其實算法公司會很難,雖然大部分大模型的流程和所需要的工具類似,但算法會涉及到很多定制化的需求,其中很大一部分就是數(shù)據(jù)生產(chǎn)工作,而數(shù)據(jù)生產(chǎn)工作正好就是數(shù)據(jù)公司的一個強(qiáng)項。從這個角度來講,我們將來的路其實是會越來越寬的。

智車星球:覺得現(xiàn)在數(shù)據(jù)行業(yè)在國內(nèi)已經(jīng)是紅海市場了嗎?

章磊:市場環(huán)境的第一個特點是長江后浪推前浪。最近自動駕駛和電動車的一波熱潮,又帶動了很多新的進(jìn)入者,但商業(yè)規(guī)律本身是沒有變化的,任何急功近利的人都可能被拍死在沙灘上。比如說想靠低價去快速擴(kuò)大規(guī)模的,可能因為資金鏈斷裂,或者是任何這個行業(yè)的融資情況變化,就會導(dǎo)致現(xiàn)金流支撐不下去,這是一種。

另外一種就是靠客戶關(guān)系,但數(shù)據(jù)服務(wù)這件事情是具備可比性的,客戶關(guān)系做得即便很強(qiáng),可能并不是核心競爭力。還有就是優(yōu)化人力,一旦發(fā)現(xiàn)人力優(yōu)化不下去但技術(shù)還在往前走的時候,就沒有辦法去克服客觀規(guī)律,當(dāng)所有的成本已經(jīng)低于人力成本的時候,就沒法正常經(jīng)營了。

我們也看到有一些新的公司,他們也是通過技術(shù)來解決問題。整個行業(yè)肯定不可能只有一家公司最后走出來,我們也希望大家各有各自的特點,然后去解決各自一些有優(yōu)勢的問題,我覺得這是一個比較良好的健康的行業(yè)和氛圍。

來源:第一電動網(wǎng)

作者:智車星球

本文地址:http://www.vlxuusu.cn/kol/212011

返回第一電動網(wǎng)首頁 >

收藏
15
  • 分享到:
發(fā)表評論
新聞推薦
大牛作者

智車星球

服務(wù)智能汽車創(chuàng)業(yè)者,提供媒體報道、品牌公關(guān)、會議活動、投融資對接等其他定制服務(wù)。

  • 178
    文章
  • 7782
    獲贊
閱讀更多文章
第一電動網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進(jìn)行報價!

第一電動網(wǎng)
Hello world!
-->