文|互聯(lián)網(wǎng)那些事
大模型搬上臺面之后,數(shù)據(jù)標(biāo)注領(lǐng)域也開始變得熱鬧。
這種熱鬧,更像是第三方服務(wù)公司單方面的“狂歡”。因?yàn)?017年的人工標(biāo)注師風(fēng)口已經(jīng)過去了,例如做文本標(biāo)注的人員,現(xiàn)在越來越少,部分標(biāo)注團(tuán)隊(duì)圖像標(biāo)注的流動(dòng)率高達(dá)30%也已經(jīng)是常態(tài),有時(shí)候就連語音、視頻標(biāo)注都是常年對半開。
因?yàn)樵诋?dāng)下的數(shù)據(jù)服務(wù)市場中,數(shù)據(jù)方少,數(shù)據(jù)標(biāo)注的需求小,供大于求的情況嚴(yán)重。
直白一點(diǎn)來說就是,新入行的公司是很難找到可做項(xiàng)目的,哪怕是有小項(xiàng)目可接,利潤空間也不會太高,這也就導(dǎo)致在工資低的同時(shí)項(xiàng)目趕,于是可能導(dǎo)致短時(shí)間內(nèi)工作量又非常的高。
最夸張的是什么?因?yàn)殚T檻足夠低以及數(shù)據(jù)標(biāo)注與AI之間的聯(lián)系,想要進(jìn)入數(shù)據(jù)標(biāo)注市場的人絡(luò)繹不絕。
但在微調(diào)前的數(shù)據(jù)標(biāo)注,其實(shí)就是一個(gè)數(shù)據(jù)流水線,枯燥,重復(fù),機(jī)械。
網(wǎng)友也曾將數(shù)據(jù)標(biāo)注比做舊社會拉黃包車的苦力,甚至可能還會和外賣騎士、快遞小哥差著好幾個(gè)段位,收入更是難望其項(xiàng)背。
于是,網(wǎng)上各大平臺只要提起數(shù)據(jù)標(biāo)注,一定是批評貶低占8成,夸這個(gè)行業(yè)的人只占2成。而大多夸贊的是因?yàn)槲兆×孙L(fēng)口,但如果你在評論區(qū)建議別人去干標(biāo)注,那你一定會被罵的狗血淋頭。
數(shù)據(jù)來源:職友集
不過更有趣的是,隨著自動(dòng)化標(biāo)注成為可能,不光個(gè)人標(biāo)注師罵,就連標(biāo)注師團(tuán)隊(duì)也在罵。
原因在于,互聯(lián)網(wǎng)大廠不僅將數(shù)據(jù)標(biāo)注納入自己的業(yè)務(wù)范圍,為了將性價(jià)比作為噱頭,也在不斷地比拼成本。
一、數(shù)據(jù)標(biāo)注現(xiàn)狀:低需求,高供應(yīng)
某種角度上來說,數(shù)據(jù)標(biāo)注行業(yè)實(shí)際上就是一個(gè)資源行業(yè),類似于包工程,誰家能包下合適的工程就賺錢了。
但前提是得能結(jié)了款,另外賺多賺少全看人力成本了。
所以先是對于大多數(shù),很難接到大單數(shù)據(jù)標(biāo)注訂單的第三方數(shù)據(jù)服務(wù)公司而言,如果再把數(shù)據(jù)標(biāo)注任務(wù)轉(zhuǎn)手交到數(shù)據(jù)標(biāo)注師的手中,那么到手薪資低已經(jīng)成為普遍的現(xiàn)象。
往深一點(diǎn)來說,市場環(huán)境差的很大部分原因,其實(shí)是因?yàn)榈谌綌?shù)據(jù)服務(wù)公司的“免費(fèi)外包行為”。
利潤層層遞減,導(dǎo)致底層人員賺不到錢,瘋狂的在互聯(lián)網(wǎng)上吐槽這個(gè)行業(yè)。
還有更慘的,運(yùn)氣不好的時(shí)候還會遇到數(shù)據(jù)標(biāo)注公司白嫖數(shù)據(jù)跑路的。在你沒有太多標(biāo)注經(jīng)驗(yàn)的時(shí)候,承諾不需要你交任何的費(fèi)用,就能獲得數(shù)據(jù)標(biāo)注任務(wù)。
基于沒有成本負(fù)擔(dān),也就放松了警惕,哪怕是第一次數(shù)據(jù)標(biāo)注不合格,你也會因?yàn)楦冻隽说谝淮蔚呐?,進(jìn)而二進(jìn)二出,甚至三進(jìn)三出。
結(jié)果發(fā)現(xiàn),不是用甲方不滿意為借口拒絕給你打錢,就是直接消失。
但無論是以上何種結(jié)果,歸根到底都是因?yàn)榇罅繑?shù)據(jù)標(biāo)準(zhǔn)員,沒有積累良好的數(shù)據(jù)標(biāo)注渠道,進(jìn)而被不靠譜的數(shù)據(jù)標(biāo)注公司所欺騙。
如果換做是自己帶團(tuán)隊(duì)做數(shù)據(jù)標(biāo)注,遇到數(shù)據(jù)標(biāo)注公司跑路的情況,結(jié)果只會更慘不忍睹。
不過對比實(shí)體行業(yè)的投資以及競爭力度,數(shù)據(jù)標(biāo)注遠(yuǎn)遠(yuǎn)優(yōu)于實(shí)體行業(yè),利潤的確是低,但仍然是有利潤可言的。
據(jù)統(tǒng)計(jì),2021我國人工智能數(shù)據(jù)標(biāo)注市場中,計(jì)算機(jī)視覺類、智能語音類和NLP類需求占比分別為45.3%、40.5%和14.2%。
但如果想要提高數(shù)據(jù)標(biāo)注任務(wù)的穩(wěn)定性,那必然需要尋求更好的出路。例如免費(fèi)外包這條路跑不通,那么就采取收費(fèi)的形式。
另一方面,提高對標(biāo)注師的學(xué)歷要求。不過,人才的進(jìn)入也取決于企業(yè)是否存在利潤空間。
歸根到底,個(gè)人人工標(biāo)注師或是人工標(biāo)注團(tuán)隊(duì),想要在人工標(biāo)注數(shù)據(jù)服務(wù)領(lǐng)域獲取利潤,其實(shí)是很難的。
因?yàn)閺拈L遠(yuǎn)的維度來看,只要智能化未達(dá)標(biāo),那么數(shù)據(jù)標(biāo)注就一定是一個(gè)長期的過程。在算法逐漸復(fù)雜化以及人工標(biāo)注成本之下,自動(dòng)化標(biāo)注自然會成為行業(yè)追求。
更何況,是在算力環(huán)節(jié)廠商以及大模型廠商同樣想要瓜分的領(lǐng)域。
二、人工數(shù)據(jù)標(biāo)注,被市場踢出局?
站在各大廠商的角度,有了技術(shù)紅利之后進(jìn)入數(shù)據(jù)標(biāo)注領(lǐng)域,他們還能釋放一部分成本優(yōu)勢給客戶,降低單位數(shù)據(jù)標(biāo)注任務(wù)的價(jià)格。
總的來說,行業(yè)從勞動(dòng)密集型向技術(shù)密集型轉(zhuǎn)變是一個(gè)必然的過程。
一方面,不同于傳統(tǒng)深度學(xué)習(xí)算法,大模型場景下數(shù)據(jù)處理流程中,在數(shù)據(jù)需求量最大的預(yù)訓(xùn)練環(huán)節(jié),使用的多是無標(biāo)注或弱監(jiān)督標(biāo)注數(shù)據(jù)。
更多的人工標(biāo)注需求出現(xiàn)在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)(SFT)以及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段。
微調(diào)和對齊時(shí),人工標(biāo)注的質(zhì)量會極大影響模型在生成內(nèi)容時(shí)的智能水平,這對人工標(biāo)注的數(shù)據(jù)質(zhì)量提出了更高的要求。
簡單來說就是,在微調(diào)階段的標(biāo)注師,是需要體系內(nèi)的業(yè)務(wù)專家們?nèi)?biāo)注金融相關(guān)的數(shù)據(jù)。
比如早期單純只標(biāo)注“語音轉(zhuǎn)寫文本”的相對簡單的作業(yè)要求,現(xiàn)在已經(jīng)增加了很多其他維度,比如對于聲音邊界的精細(xì)度的要求,以前要求的可能是粗顆粒度,但現(xiàn)在動(dòng)輒要求精確到毫秒級。
比如出于對安全考量,車企對數(shù)據(jù)標(biāo)注的準(zhǔn)確度要求通常在99%以上,這實(shí)際上也大幅提高了對數(shù)據(jù)服務(wù)商的要求門檻。
再比如對于在語音中出現(xiàn)的各類不同的其他聲音的標(biāo)注,以前可能只需要標(biāo)注出來某些噪音,現(xiàn)在的要求則可能是還要對噪音進(jìn)行更多維度的分類。
更進(jìn)一步來說,隨著語音數(shù)據(jù)量的日漸增多且復(fù)雜,對人工標(biāo)注也存在高強(qiáng)度。
另外,在醫(yī)療領(lǐng)域從事傳統(tǒng)和常規(guī)的工作,固然也是很多人夢寐以求的,但同領(lǐng)域的數(shù)據(jù)標(biāo)注,也同樣潛力巨大。
據(jù)媒體報(bào)道,截至今年3月,百度山西人工智能數(shù)據(jù)產(chǎn)業(yè)基地中,就擁有超過3000位標(biāo)注師,主要涉及自動(dòng)駕駛、人臉識別等內(nèi)容標(biāo)注,其中86%的員工為90后;字節(jié)跳動(dòng)在北京、天津、濟(jì)南、武漢各地,也招募了4萬名數(shù)據(jù)標(biāo)注師;騰訊更是直接把平臺放到了線上,讓標(biāo)注師變成了一種“全民兼職”,稱為“眾包”。
可以預(yù)見的是,在未來更多更廣闊的垂直領(lǐng)域里,有專業(yè)經(jīng)驗(yàn)、并且熟悉數(shù)據(jù)標(biāo)注工作的人群,都將是亟需的人才。
不過,也僅限于真正擁有專業(yè)經(jīng)驗(yàn)的技術(shù)人才,以及自動(dòng)標(biāo)注之后的審核崗位,但需求有限。
三、自動(dòng)化標(biāo)注進(jìn)入淘汰賽?
在大廠入局之下,不只是數(shù)據(jù)標(biāo)注團(tuán)隊(duì),那些單純依靠人工標(biāo)注的企業(yè)也很難存活。原因在于,今年數(shù)據(jù)標(biāo)注市場或許會加速向技術(shù)型玩家集中,市場正開啟淘汰賽。
最簡單的理解是,由于看中了大模型訓(xùn)練的算力市場,不少模型提供商提供了AI訓(xùn)練全家桶,數(shù)據(jù)標(biāo)注被納入了大廠的服務(wù)范圍,這可能正加劇行業(yè)的競爭。
不過從另一方面考慮,即便大廠內(nèi)部建的數(shù)據(jù)標(biāo)注平臺,因?yàn)楹茈y應(yīng)對市場多樣化的數(shù)據(jù)標(biāo)注任務(wù)需求,而存在局限。
但最初被劃為算力環(huán)節(jié)的企業(yè),也一樣會對自動(dòng)化標(biāo)注虎視眈眈。例如,原本處于數(shù)據(jù)服務(wù)下游的算法研發(fā)平臺及科技企業(yè),自身也在嘗試把大模型技術(shù)用到了自身的數(shù)據(jù)標(biāo)注場景。
今年4月,??低曉谝患径鹊呢?cái)報(bào)電話會上向投資者答疑時(shí)也提到,他們也在將自研AI技術(shù)用到自動(dòng)化標(biāo)注場景。
原因在于,此前被行業(yè)里劃為應(yīng)用開發(fā)或算法研發(fā)環(huán)節(jié)的???、商湯等企業(yè),現(xiàn)在他們也需要一些智能化工具和應(yīng)用來提升數(shù)據(jù)標(biāo)注效率。
而商湯科技就是最好的例子。目前,商湯科技在自動(dòng)駕駛場景基于視覺大模型技術(shù),降低了人工數(shù)據(jù)標(biāo)注的數(shù)量,大幅提升了數(shù)據(jù)標(biāo)注效率。
隨著機(jī)器學(xué)習(xí)模型的發(fā)展,自動(dòng)化數(shù)據(jù)標(biāo)注的準(zhǔn)確性提高,可以使用模型來輔助人工標(biāo)注,比如模型預(yù)處理數(shù)據(jù)再發(fā)送給標(biāo)注師,或人類作為審核員,審核并糾正模型給出的標(biāo)注結(jié)果等等。
與純手動(dòng)標(biāo)記相比,AI輔助標(biāo)注加快數(shù)據(jù)標(biāo)注的速度。目前,scale Al等數(shù)據(jù)標(biāo)注公司都在努力減少數(shù)據(jù)標(biāo)注過程中的人工參與比例。
但自動(dòng)標(biāo)注是否能夠完全代替人工,目前尚未能夠確定。
市場的發(fā)展總是處于不確定中,未來可能會誕生新的標(biāo)注場景或需求,或許會繼續(xù)基于人工標(biāo)注,才能獲得更為準(zhǔn)確的數(shù)據(jù)集,來給到智能機(jī)器良好的自測需求,這些我們都不得而知。
但是能夠預(yù)測的是,如果人工標(biāo)注和“自動(dòng)化+人工”的標(biāo)注方式在未來 5-10 年內(nèi)仍然會存在,那么在擁有一定數(shù)據(jù)標(biāo)注渠道以及標(biāo)注專業(yè)人員的數(shù)據(jù)服務(wù)公司,仍然有機(jī)會在這個(gè)市場中分得一杯羹。
不過,要是想在未來也能夠脫穎而出,規(guī)?;鶐淼男侍嵘?,一定是關(guān)鍵因素。
但如果數(shù)據(jù)項(xiàng)目訂單被擠壓,規(guī)?;簿屯扔凇笆┕り?duì)生意”。那些以“數(shù)據(jù)標(biāo)注業(yè)務(wù)”為核心的數(shù)據(jù)服務(wù)公司,最大的風(fēng)險(xiǎn)也就變成了人工成本。
參考:
藍(lán)鯨財(cái)經(jīng):數(shù)據(jù)標(biāo)注,從藍(lán)領(lǐng)到白領(lǐng)
華經(jīng)產(chǎn)業(yè)研究院:2022年中國數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模、市場結(jié)構(gòu)及重點(diǎn)企業(yè)分析
語音之家:Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?
機(jī)器人庫:數(shù)據(jù)標(biāo)注師:站在了人工智能風(fēng)口,卻為5K月薪掙扎?