文|互聯(lián)網(wǎng)那些事
大模型搬上臺面之后,數(shù)據(jù)標注領(lǐng)域也開始變得熱鬧。
這種熱鬧,更像是第三方服務(wù)公司單方面的“狂歡”。因為2017年的人工標注師風(fēng)口已經(jīng)過去了,例如做文本標注的人員,現(xiàn)在越來越少,部分標注團隊圖像標注的流動率高達30%也已經(jīng)是常態(tài),有時候就連語音、視頻標注都是常年對半開。
因為在當下的數(shù)據(jù)服務(wù)市場中,數(shù)據(jù)方少,數(shù)據(jù)標注的需求小,供大于求的情況嚴重。
直白一點來說就是,新入行的公司是很難找到可做項目的,哪怕是有小項目可接,利潤空間也不會太高,這也就導(dǎo)致在工資低的同時項目趕,于是可能導(dǎo)致短時間內(nèi)工作量又非常的高。
最夸張的是什么?因為門檻足夠低以及數(shù)據(jù)標注與AI之間的聯(lián)系,想要進入數(shù)據(jù)標注市場的人絡(luò)繹不絕。
但在微調(diào)前的數(shù)據(jù)標注,其實就是一個數(shù)據(jù)流水線,枯燥,重復(fù),機械。
網(wǎng)友也曾將數(shù)據(jù)標注比做舊社會拉黃包車的苦力,甚至可能還會和外賣騎士、快遞小哥差著好幾個段位,收入更是難望其項背。
于是,網(wǎng)上各大平臺只要提起數(shù)據(jù)標注,一定是批評貶低占8成,夸這個行業(yè)的人只占2成。而大多夸贊的是因為握住了風(fēng)口,但如果你在評論區(qū)建議別人去干標注,那你一定會被罵的狗血淋頭。
數(shù)據(jù)來源:職友集
不過更有趣的是,隨著自動化標注成為可能,不光個人標注師罵,就連標注師團隊也在罵。
原因在于,互聯(lián)網(wǎng)大廠不僅將數(shù)據(jù)標注納入自己的業(yè)務(wù)范圍,為了將性價比作為噱頭,也在不斷地比拼成本。
一、數(shù)據(jù)標注現(xiàn)狀:低需求,高供應(yīng)
某種角度上來說,數(shù)據(jù)標注行業(yè)實際上就是一個資源行業(yè),類似于包工程,誰家能包下合適的工程就賺錢了。
但前提是得能結(jié)了款,另外賺多賺少全看人力成本了。
所以先是對于大多數(shù),很難接到大單數(shù)據(jù)標注訂單的第三方數(shù)據(jù)服務(wù)公司而言,如果再把數(shù)據(jù)標注任務(wù)轉(zhuǎn)手交到數(shù)據(jù)標注師的手中,那么到手薪資低已經(jīng)成為普遍的現(xiàn)象。
往深一點來說,市場環(huán)境差的很大部分原因,其實是因為第三方數(shù)據(jù)服務(wù)公司的“免費外包行為”。
利潤層層遞減,導(dǎo)致底層人員賺不到錢,瘋狂的在互聯(lián)網(wǎng)上吐槽這個行業(yè)。
還有更慘的,運氣不好的時候還會遇到數(shù)據(jù)標注公司白嫖數(shù)據(jù)跑路的。在你沒有太多標注經(jīng)驗的時候,承諾不需要你交任何的費用,就能獲得數(shù)據(jù)標注任務(wù)。
基于沒有成本負擔(dān),也就放松了警惕,哪怕是第一次數(shù)據(jù)標注不合格,你也會因為付出了第一次的努力,進而二進二出,甚至三進三出。
結(jié)果發(fā)現(xiàn),不是用甲方不滿意為借口拒絕給你打錢,就是直接消失。
但無論是以上何種結(jié)果,歸根到底都是因為大量數(shù)據(jù)標準員,沒有積累良好的數(shù)據(jù)標注渠道,進而被不靠譜的數(shù)據(jù)標注公司所欺騙。
如果換做是自己帶團隊做數(shù)據(jù)標注,遇到數(shù)據(jù)標注公司跑路的情況,結(jié)果只會更慘不忍睹。
不過對比實體行業(yè)的投資以及競爭力度,數(shù)據(jù)標注遠遠優(yōu)于實體行業(yè),利潤的確是低,但仍然是有利潤可言的。
據(jù)統(tǒng)計,2021我國人工智能數(shù)據(jù)標注市場中,計算機視覺類、智能語音類和NLP類需求占比分別為45.3%、40.5%和14.2%。
但如果想要提高數(shù)據(jù)標注任務(wù)的穩(wěn)定性,那必然需要尋求更好的出路。例如免費外包這條路跑不通,那么就采取收費的形式。
另一方面,提高對標注師的學(xué)歷要求。不過,人才的進入也取決于企業(yè)是否存在利潤空間。
歸根到底,個人人工標注師或是人工標注團隊,想要在人工標注數(shù)據(jù)服務(wù)領(lǐng)域獲取利潤,其實是很難的。
因為從長遠的維度來看,只要智能化未達標,那么數(shù)據(jù)標注就一定是一個長期的過程。在算法逐漸復(fù)雜化以及人工標注成本之下,自動化標注自然會成為行業(yè)追求。
更何況,是在算力環(huán)節(jié)廠商以及大模型廠商同樣想要瓜分的領(lǐng)域。
二、人工數(shù)據(jù)標注,被市場踢出局?
站在各大廠商的角度,有了技術(shù)紅利之后進入數(shù)據(jù)標注領(lǐng)域,他們還能釋放一部分成本優(yōu)勢給客戶,降低單位數(shù)據(jù)標注任務(wù)的價格。
總的來說,行業(yè)從勞動密集型向技術(shù)密集型轉(zhuǎn)變是一個必然的過程。
一方面,不同于傳統(tǒng)深度學(xué)習(xí)算法,大模型場景下數(shù)據(jù)處理流程中,在數(shù)據(jù)需求量最大的預(yù)訓(xùn)練環(huán)節(jié),使用的多是無標注或弱監(jiān)督標注數(shù)據(jù)。
更多的人工標注需求出現(xiàn)在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)(SFT)以及基于人類反饋的強化學(xué)習(xí)(RLHF)階段。
微調(diào)和對齊時,人工標注的質(zhì)量會極大影響模型在生成內(nèi)容時的智能水平,這對人工標注的數(shù)據(jù)質(zhì)量提出了更高的要求。
簡單來說就是,在微調(diào)階段的標注師,是需要體系內(nèi)的業(yè)務(wù)專家們?nèi)俗⒔鹑谙嚓P(guān)的數(shù)據(jù)。
比如早期單純只標注“語音轉(zhuǎn)寫文本”的相對簡單的作業(yè)要求,現(xiàn)在已經(jīng)增加了很多其他維度,比如對于聲音邊界的精細度的要求,以前要求的可能是粗顆粒度,但現(xiàn)在動輒要求精確到毫秒級。
比如出于對安全考量,車企對數(shù)據(jù)標注的準確度要求通常在99%以上,這實際上也大幅提高了對數(shù)據(jù)服務(wù)商的要求門檻。
再比如對于在語音中出現(xiàn)的各類不同的其他聲音的標注,以前可能只需要標注出來某些噪音,現(xiàn)在的要求則可能是還要對噪音進行更多維度的分類。
更進一步來說,隨著語音數(shù)據(jù)量的日漸增多且復(fù)雜,對人工標注也存在高強度。
另外,在醫(yī)療領(lǐng)域從事傳統(tǒng)和常規(guī)的工作,固然也是很多人夢寐以求的,但同領(lǐng)域的數(shù)據(jù)標注,也同樣潛力巨大。
據(jù)媒體報道,截至今年3月,百度山西人工智能數(shù)據(jù)產(chǎn)業(yè)基地中,就擁有超過3000位標注師,主要涉及自動駕駛、人臉識別等內(nèi)容標注,其中86%的員工為90后;字節(jié)跳動在北京、天津、濟南、武漢各地,也招募了4萬名數(shù)據(jù)標注師;騰訊更是直接把平臺放到了線上,讓標注師變成了一種“全民兼職”,稱為“眾包”。
可以預(yù)見的是,在未來更多更廣闊的垂直領(lǐng)域里,有專業(yè)經(jīng)驗、并且熟悉數(shù)據(jù)標注工作的人群,都將是亟需的人才。
不過,也僅限于真正擁有專業(yè)經(jīng)驗的技術(shù)人才,以及自動標注之后的審核崗位,但需求有限。
三、自動化標注進入淘汰賽?
在大廠入局之下,不只是數(shù)據(jù)標注團隊,那些單純依靠人工標注的企業(yè)也很難存活。原因在于,今年數(shù)據(jù)標注市場或許會加速向技術(shù)型玩家集中,市場正開啟淘汰賽。
最簡單的理解是,由于看中了大模型訓(xùn)練的算力市場,不少模型提供商提供了AI訓(xùn)練全家桶,數(shù)據(jù)標注被納入了大廠的服務(wù)范圍,這可能正加劇行業(yè)的競爭。
不過從另一方面考慮,即便大廠內(nèi)部建的數(shù)據(jù)標注平臺,因為很難應(yīng)對市場多樣化的數(shù)據(jù)標注任務(wù)需求,而存在局限。
但最初被劃為算力環(huán)節(jié)的企業(yè),也一樣會對自動化標注虎視眈眈。例如,原本處于數(shù)據(jù)服務(wù)下游的算法研發(fā)平臺及科技企業(yè),自身也在嘗試把大模型技術(shù)用到了自身的數(shù)據(jù)標注場景。
今年4月,??低曉谝患径鹊呢攬箅娫挄舷蛲顿Y者答疑時也提到,他們也在將自研AI技術(shù)用到自動化標注場景。
原因在于,此前被行業(yè)里劃為應(yīng)用開發(fā)或算法研發(fā)環(huán)節(jié)的海康、商湯等企業(yè),現(xiàn)在他們也需要一些智能化工具和應(yīng)用來提升數(shù)據(jù)標注效率。
而商湯科技就是最好的例子。目前,商湯科技在自動駕駛場景基于視覺大模型技術(shù),降低了人工數(shù)據(jù)標注的數(shù)量,大幅提升了數(shù)據(jù)標注效率。
隨著機器學(xué)習(xí)模型的發(fā)展,自動化數(shù)據(jù)標注的準確性提高,可以使用模型來輔助人工標注,比如模型預(yù)處理數(shù)據(jù)再發(fā)送給標注師,或人類作為審核員,審核并糾正模型給出的標注結(jié)果等等。
與純手動標記相比,AI輔助標注加快數(shù)據(jù)標注的速度。目前,scale Al等數(shù)據(jù)標注公司都在努力減少數(shù)據(jù)標注過程中的人工參與比例。
但自動標注是否能夠完全代替人工,目前尚未能夠確定。
市場的發(fā)展總是處于不確定中,未來可能會誕生新的標注場景或需求,或許會繼續(xù)基于人工標注,才能獲得更為準確的數(shù)據(jù)集,來給到智能機器良好的自測需求,這些我們都不得而知。
但是能夠預(yù)測的是,如果人工標注和“自動化+人工”的標注方式在未來 5-10 年內(nèi)仍然會存在,那么在擁有一定數(shù)據(jù)標注渠道以及標注專業(yè)人員的數(shù)據(jù)服務(wù)公司,仍然有機會在這個市場中分得一杯羹。
不過,要是想在未來也能夠脫穎而出,規(guī)?;鶐淼男侍嵘?,一定是關(guān)鍵因素。
但如果數(shù)據(jù)項目訂單被擠壓,規(guī)模化也就同等于“施工隊生意”。那些以“數(shù)據(jù)標注業(yè)務(wù)”為核心的數(shù)據(jù)服務(wù)公司,最大的風(fēng)險也就變成了人工成本。
參考:
藍鯨財經(jīng):數(shù)據(jù)標注,從藍領(lǐng)到白領(lǐng)
華經(jīng)產(chǎn)業(yè)研究院:2022年中國數(shù)據(jù)標注行業(yè)市場規(guī)模、市場結(jié)構(gòu)及重點企業(yè)分析
語音之家:Scale AI:大模型還需要數(shù)據(jù)標注嗎?
機器人庫:數(shù)據(jù)標注師:站在了人工智能風(fēng)口,卻為5K月薪掙扎?