文|數(shù)智前線 徐鑫
編輯|任曉漁
AI應(yīng)用落地?zé)岢闭苿訑?shù)據(jù)標(biāo)注市場進(jìn)入新一輪洗牌期。
大模型和自動駕駛領(lǐng)域的AI需求攪動了數(shù)據(jù)服務(wù)市場,數(shù)據(jù)標(biāo)注服務(wù)商整數(shù)智能CEO林群書告訴數(shù)智前線,今年以來他們接到了非常多基于大模型訓(xùn)練場景的訂單,市場需求量呈現(xiàn)出了一條比較陡峭的增長曲線。
新的應(yīng)用場景對服務(wù)商的能力提出了新要求。一方面,不同于傳統(tǒng)深度學(xué)習(xí)算法,大模型場景下數(shù)據(jù)處理流程中,在數(shù)據(jù)需求量最大的預(yù)訓(xùn)練環(huán)節(jié),使用的多是無標(biāo)注或弱監(jiān)督標(biāo)注數(shù)據(jù)。更多的人工標(biāo)注需求出現(xiàn)在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)(SFT)以及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段。微調(diào)和對齊時,人工標(biāo)注的質(zhì)量會極大影響模型在生成內(nèi)容時的智能水平,這對人工標(biāo)注的數(shù)據(jù)質(zhì)量提出了更高的要求。
另一方面,AI技術(shù)的進(jìn)步正推動行業(yè)從人力密集型向自動化標(biāo)注轉(zhuǎn)變。
新一代數(shù)據(jù)標(biāo)注服務(wù)商已經(jīng)基于機(jī)器學(xué)習(xí)算法,探索構(gòu)建更智能的數(shù)據(jù)工程平臺,提升數(shù)據(jù)標(biāo)注的自動化水平。而原本處于數(shù)據(jù)服務(wù)下游的算法研發(fā)平臺及科技企業(yè)自身也在嘗試把大模型技術(shù)用到了自身的數(shù)據(jù)標(biāo)注場景,例如商湯科技在自動駕駛場景基于視覺大模型技術(shù),降低了人工數(shù)據(jù)標(biāo)注的數(shù)量,大幅提升了數(shù)據(jù)標(biāo)注效率。
大廠也加速進(jìn)入這一市場。由于看中了大模型訓(xùn)練的算力市場,不少模型提供商提供了AI訓(xùn)練全家桶,數(shù)據(jù)標(biāo)注被納入了大廠的服務(wù)范圍,這可能正加劇行業(yè)的競爭。
數(shù)據(jù)標(biāo)注自動化水平提升,拉高了服務(wù)標(biāo)準(zhǔn),同時還在釋放行業(yè)的降價(jià)空間。一位資深人士稱,今年數(shù)據(jù)標(biāo)注市場或許會加速向技術(shù)型玩家集中,單純依靠人工標(biāo)注的企業(yè)生存更為艱難,市場正開啟淘汰賽。
01 AI落地潮催熟數(shù)據(jù)標(biāo)注市場
數(shù)據(jù)被認(rèn)為是人工智能智能化水平提升的燃料。過去兩年里大模型和自動駕駛等領(lǐng)域里的AI落地?zé)岢闭诖邿釘?shù)據(jù)標(biāo)注市場。
據(jù)信通院數(shù)據(jù),OpenAI 2020 年推出 GPT-3 以來,超大預(yù)訓(xùn)練模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模按照 300 倍/年的趨勢增長。大模型熱潮使得國內(nèi)的數(shù)據(jù)標(biāo)注公司也受到了不小關(guān)注。今年以來,國內(nèi)的老牌數(shù)據(jù)標(biāo)注企業(yè)海天瑞聲備受矚目,該公司高管在接受采訪時稱收到了大量問詢。
今年2月,海天瑞聲還專門發(fā)布了公告,稱公司尚未與OpenAI開展合作,收入結(jié)構(gòu)中有大約90%的貢獻(xiàn)來自于智能語音和計(jì)算機(jī)視覺業(yè)務(wù)領(lǐng)域,自然語言業(yè)務(wù)對公司整體貢獻(xiàn)大約在10%左右。
雖然與大語言模型直接相關(guān)的訓(xùn)練需求,在這家老牌數(shù)據(jù)標(biāo)注服務(wù)商的業(yè)務(wù)占比不大,但市場對數(shù)據(jù)標(biāo)注廠商的熱情依然迅猛。海天瑞聲今年股價(jià)實(shí)現(xiàn)了大幅上漲,波動范圍從31.28 元最高到過192.69元,雖然目前股價(jià)已回落到百元以內(nèi)區(qū)間,但仍較年初水平翻倍。
除了老牌數(shù)據(jù)標(biāo)注商的股價(jià)飆漲,新興的數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司也明顯感知到了這股趨勢。 整數(shù)智能CEO林群書告訴數(shù)智前線,今年他們能看到兩個領(lǐng)域的數(shù)據(jù)標(biāo)注需求非常明顯,一個是自動駕駛場景,另外一個就是大模型,這也是他們重點(diǎn)布局的兩大領(lǐng)域。
業(yè)界觀察,大模型的訓(xùn)練方式與此前的深度學(xué)習(xí)算法的開發(fā)范式并不一樣:大模型的預(yù)訓(xùn)練環(huán)節(jié)需要的數(shù)據(jù)量比較大,但這一環(huán)節(jié)通常會采用弱監(jiān)督或無監(jiān)督數(shù)據(jù),對數(shù)據(jù)標(biāo)注的需求增加并不明顯。而在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)階段,則需要高質(zhì)量的人工標(biāo)注數(shù)據(jù)。比如,此前工行的技術(shù)專家在華為云論壇上分享訓(xùn)練自己的大模型應(yīng)用時提到,在微調(diào)階段需要體系內(nèi)的業(yè)務(wù)專家們?nèi)?biāo)注金融相關(guān)的數(shù)據(jù),這已不是普通數(shù)據(jù)標(biāo)注員能完成的作業(yè)。
林群書介紹,目前他所在的整數(shù)智能已經(jīng)針對大模型不同階段的數(shù)據(jù)需求向企業(yè)提供不同的數(shù)據(jù)服務(wù)。比如針對需要做模型訓(xùn)練但自身沒有專業(yè)獲取數(shù)據(jù)來源的團(tuán)隊(duì),提供從數(shù)據(jù)標(biāo)注工具到定制數(shù)據(jù)集的整套服務(wù)。
自動駕駛也是近年來另一個對數(shù)據(jù)標(biāo)注服務(wù)有大量需求的場景。根據(jù)德勤今年3月份的一份報(bào)告顯示,2022年自動駕駛領(lǐng)域在人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的整個下游應(yīng)用占比約為38%,到2027年這個比例將增長到52%。
這一場景的數(shù)據(jù)需求暴增與自動駕駛場景特性有關(guān)。車企對數(shù)據(jù)標(biāo)注的要求相比其他行業(yè)更高。林群書告訴數(shù)智前線,目前國內(nèi)車企也在對標(biāo)特斯拉的數(shù)據(jù)閉環(huán)方案,能服務(wù)這個場景的數(shù)據(jù)服務(wù)商需要有專門的自動化標(biāo)注平臺與專業(yè)的標(biāo)注工具,例如4D標(biāo)注工具,同時需要一整套完整的解決方案。
另外,出于對安全考量,車企對數(shù)據(jù)標(biāo)注的準(zhǔn)確度要求通常在99%以上,這實(shí)際上也大幅提高了對數(shù)據(jù)服務(wù)商的要求門檻。
整體而言,數(shù)據(jù)標(biāo)注市場需求在大量釋放的同時,門檻也進(jìn)一步拉高。
02 從“靠人工實(shí)現(xiàn)智能”到智能化工程平臺
過去十年,深度學(xué)習(xí)和人工智能技術(shù),基于標(biāo)注好的數(shù)據(jù),智能水平有了巨大的突破。
張宏江院士今年年初在一場有關(guān)大模型的演講中提及,伴隨算法的進(jìn)步實(shí)際上數(shù)據(jù)層面發(fā)生的變化也非常明顯,從最開始人工的標(biāo)注,到開放的數(shù)據(jù)集分享,現(xiàn)在發(fā)展到數(shù)據(jù)自動標(biāo)注和深層研究。這也是國內(nèi)數(shù)據(jù)標(biāo)注領(lǐng)域里正在發(fā)生的現(xiàn)實(shí)。
行業(yè)內(nèi)最經(jīng)典的人工數(shù)據(jù)標(biāo)注工作,當(dāng)屬 ImageNet數(shù)據(jù)集。2007年開始,人工智能學(xué)者李飛飛在美國普林斯頓大學(xué)任教期間,啟動了 ImageNet的標(biāo)注工作。通過亞馬遜 Mechanical Turk 在線眾包,李飛飛團(tuán)隊(duì)利用了67 個國家的 49000 人次,花費(fèi)兩年半的時間,最終標(biāo)注了1500 萬張圖片。這個龐大數(shù)據(jù)集為后來深度學(xué)習(xí)算法的良好表現(xiàn)打下了基礎(chǔ),無怪乎有人稱李飛飛為深度學(xué)習(xí)之母。
而數(shù)據(jù)標(biāo)注作業(yè)能從純手工標(biāo)注逐漸往自動化標(biāo)注及更智能的數(shù)據(jù)工程平臺過渡,實(shí)際上與這個細(xì)分行業(yè)的特性有關(guān)。
一位業(yè)界人士告訴數(shù)智前線,數(shù)據(jù)標(biāo)注工作本質(zhì)是要把日常生活中這些非結(jié)構(gòu)化數(shù)據(jù)翻譯成機(jī)器能理解的結(jié)構(gòu)化數(shù)據(jù)。而無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的模態(tài)是有限的,包含圖像、音頻、視頻、文本、點(diǎn)云等有限種類。另外,在實(shí)現(xiàn)人工智能的數(shù)據(jù)工程任務(wù)時,不同模態(tài)數(shù)據(jù)要完成的是有限個子任務(wù)。以圖像領(lǐng)域?yàn)槔?,要識別圖像信息,共包含了目標(biāo)檢測、語義分割、目標(biāo)跟蹤等十個以內(nèi)的子任務(wù)。
專業(yè)的數(shù)據(jù)服務(wù)商可以針對所有模態(tài)數(shù)據(jù)的子任務(wù),做出針對性的數(shù)據(jù)標(biāo)注工具,并從中提煉出標(biāo)準(zhǔn)化流程,更高效完成數(shù)據(jù)的采集和標(biāo)注,從而服務(wù)和滿足人工智能應(yīng)用和不同場景的需求。
過去十余年,國內(nèi)數(shù)據(jù)標(biāo)注最初是純?nèi)斯ね瓿?,隨著人工智能算法發(fā)展帶來的數(shù)據(jù)標(biāo)注任務(wù)增加,一些軟件公司開始開發(fā)眾包的數(shù)據(jù)標(biāo)注平臺,從而更高效組織和管理人工標(biāo)注任務(wù)的分發(fā),控制流程,推動人工數(shù)據(jù)標(biāo)注及質(zhì)檢工作的流程標(biāo)準(zhǔn)。
數(shù)據(jù)標(biāo)注作業(yè)朝向自動化邁開步伐,時間節(jié)點(diǎn)在2017年~2018年。當(dāng)時行業(yè)里發(fā)現(xiàn),隨著自動駕駛這樣需要處理海量數(shù)據(jù)的場景出現(xiàn),一個場景要標(biāo)注的數(shù)據(jù)體量可能達(dá)到幾千萬張圖片規(guī)模。在這樣體量的需求前,人工完成數(shù)據(jù)標(biāo)注任務(wù),一致性管理和進(jìn)度追蹤變得極為困難。
一方面人工要完成千萬張圖片級別的數(shù)據(jù)標(biāo)注,通常需要幾百人團(tuán)隊(duì)花費(fèi)大半年以上的周期。同時,眾包平臺的人工標(biāo)注作業(yè)可能會因?yàn)橐恢滦怨芾黼y,而出現(xiàn)準(zhǔn)確率不達(dá)標(biāo)等情況,需要返工,這可能進(jìn)一步拉長作業(yè)周期。
業(yè)界開始探討用人工智能來減少標(biāo)注工作量。比如訓(xùn)練一個人工智能算法,對標(biāo)注任務(wù)進(jìn)行預(yù)標(biāo)注,再由人工去做精加工。預(yù)標(biāo)注過程能大幅減少人工標(biāo)注數(shù)量,同時由于篩選標(biāo)準(zhǔn)統(tǒng)一,結(jié)果的一致性更高,數(shù)據(jù)標(biāo)注的質(zhì)量也能提升。
目前,國內(nèi)已經(jīng)有不少企業(yè)把大模型技術(shù)應(yīng)用到了數(shù)據(jù)標(biāo)注場景。商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒此前接受數(shù)智前線采訪時提到,在自動駕駛場景里,商湯正通過大模型去對自動駕駛的路測回流數(shù)據(jù)做挖掘、自動標(biāo)注、泛化與重建,大幅提升了自動駕駛算法迭代所需的高質(zhì)量數(shù)據(jù)規(guī)模化生成效率。
商湯絕影產(chǎn)品總監(jiān)Larry方面還透露,目前商湯絕影智能駕駛主要模型訓(xùn)練所依賴的標(biāo)注已經(jīng)大部分采用大模型自動標(biāo)注技術(shù),全自動標(biāo)注和半自動標(biāo)注(采用人工抽樣質(zhì)檢)基本已經(jīng)代替了人工標(biāo)注,成本和時間周期均大幅下降。
今年4月,??低曉谝患径鹊呢?cái)報(bào)電話會上向投資者答疑時也提到,他們也在將自研AI技術(shù)用到自動化標(biāo)注場景,“用同樣的人力投入, 數(shù)據(jù)標(biāo)注的數(shù)量可以提升 10 倍”。數(shù)智前線獲悉,網(wǎng)易旗下的伏羲有靈眾包平臺已經(jīng)在控制成本、縮短任務(wù)周期、保證質(zhì)量等方面融入了一系列的前沿算法,將人工標(biāo)注數(shù)據(jù)反哺 AI算法,實(shí)現(xiàn)人機(jī)協(xié)作任務(wù)處理。
一些新興的數(shù)據(jù)標(biāo)注服務(wù)商們試圖再往前一步,建設(shè)更通用的數(shù)據(jù)工程平臺,在一些跨行業(yè)或跨場景的算法自動化標(biāo)注減少工程師需要額外調(diào)試的時間。老牌廠商海天瑞聲就計(jì)劃啟動領(lǐng)域里的垂直大模型研發(fā),把大模型的泛化能力應(yīng)用到數(shù)據(jù)標(biāo)注領(lǐng)域。
整數(shù)智能則開發(fā)了智能數(shù)據(jù)工程平臺(ABAVA Platform),希望適用所有的模態(tài)數(shù)據(jù)及更普遍的行業(yè)場景,他們還將MLOps模塊集成在數(shù)據(jù)工程平臺上,使得平臺可以以插件的形式使用內(nèi)外部的算法模型,用于提升數(shù)據(jù)標(biāo)注以及智能審核的效率。林群書介紹,“通過把一套Machine Learning Ops的系統(tǒng)集成到了整個數(shù)據(jù)工程平臺,每次完成的數(shù)據(jù)都可以用來迭代自動標(biāo)注算法,使得自動標(biāo)注算法不斷學(xué)習(xí)垂直場景數(shù)據(jù),變得更加聰明。數(shù)據(jù)標(biāo)注也能形成數(shù)據(jù)應(yīng)用的閉環(huán)和飛輪?!?/p>
在數(shù)據(jù)標(biāo)注的智能化演進(jìn)路徑里,也有觀察人士評價(jià),人工標(biāo)注師們的努力正推動算法進(jìn)步,最終使得自身被算法汰換。
03 淘汰賽開啟
對投資人工智能的企業(yè)而言,數(shù)據(jù)標(biāo)注是項(xiàng)長期成本,只要企業(yè)還期望提升算法的智能程度,每年對數(shù)據(jù)標(biāo)注的需求和投入就穩(wěn)定存在。
也有應(yīng)用開發(fā)方在訓(xùn)練算法時會干脆不靠外部標(biāo)注商,自己投入力量來標(biāo)注數(shù)據(jù)。例如不少互聯(lián)網(wǎng)平臺就建設(shè)了數(shù)據(jù)標(biāo)注眾包平臺,這些企業(yè)有大量的人工智能算法及AI應(yīng)用開發(fā)需求,自建團(tuán)隊(duì)對這些企業(yè)而言能更方便滿足業(yè)務(wù)的數(shù)據(jù)需求。
但這個行當(dāng)?shù)倪M(jìn)入門檻相對不高。據(jù)了解,前些年在一些人力資源充足地區(qū)如山東、山西、河南、貴州等地,出現(xiàn)了不少數(shù)據(jù)標(biāo)注基地,大量廉價(jià)的勞動力資源是這些標(biāo)注基地生存發(fā)展的重要原因。
大模型時代到來后,數(shù)據(jù)需求方對人工標(biāo)注的數(shù)據(jù)要求在提升。例如,業(yè)界發(fā)現(xiàn)微調(diào)環(huán)節(jié)的反饋和數(shù)據(jù)質(zhì)量正大大影響模型的智能度,在一些前沿的研究論文里就已經(jīng)在指出,擴(kuò)大數(shù)據(jù)量而不同時擴(kuò)大提示多樣性時,收益會大大減少,而在優(yōu)化數(shù)據(jù)質(zhì)量時,收益會大大增加。為了提升模型表現(xiàn),數(shù)智前線了解到,今年4月國內(nèi)某頭部大模型提供商就專門組建了更專業(yè)的標(biāo)注團(tuán)隊(duì),標(biāo)注員要求本科以上學(xué)歷。
算法類企業(yè)自身離數(shù)據(jù)和人工智能算法近,他們也在用大模型來提升自身的數(shù)據(jù)處理能力,比如??低?、商湯科技,此前被行業(yè)里劃為應(yīng)用開發(fā)或算法研發(fā)環(huán)節(jié),現(xiàn)在他們也有一些智能化工具和應(yīng)用來提升數(shù)據(jù)標(biāo)注效率。
大廠內(nèi)部的數(shù)據(jù)標(biāo)注平臺的服務(wù)方式也在發(fā)生變化。由于看中了大模型帶來的算力市場,大廠正在提供一站式服務(wù),其中包含了AI訓(xùn)練的工具鏈、數(shù)據(jù)標(biāo)注的工具等。數(shù)據(jù)標(biāo)注被納入AI訓(xùn)練全家桶,統(tǒng)一對外服務(wù)。一些分析人士認(rèn)為,這種模式下,大廠的數(shù)據(jù)標(biāo)注服務(wù)可能變得比以前更有吸引力,可能會擠占第三方標(biāo)注服務(wù)商的生意。
不過也有業(yè)內(nèi)人士認(rèn)為,大廠內(nèi)部建的數(shù)據(jù)標(biāo)注平臺有一些局限。這些基于內(nèi)部數(shù)據(jù)需求和業(yè)務(wù)場景出發(fā)來建的平臺,通常很難應(yīng)對市場多樣化的數(shù)據(jù)標(biāo)注任務(wù)需求。另外該資深人士也認(rèn)為,一些企業(yè)還有私有化部署的需求,從合規(guī)角度需要把訓(xùn)練任務(wù)放在本地,專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)商更擅長滿足這部分需求。
林群書也提及,醫(yī)療行業(yè)就更傾向用私有化部署去保護(hù)數(shù)據(jù)安全。醫(yī)療行業(yè)里的客戶會從標(biāo)注環(huán)節(jié)開始,整套系統(tǒng)和標(biāo)注平臺做私有化部署,整個平臺放內(nèi)網(wǎng),然后這些機(jī)構(gòu)會自己安排一些醫(yī)生上來做數(shù)據(jù)標(biāo)注。
同時,新興的AI場景也對數(shù)據(jù)標(biāo)注服務(wù)商提出了更高要求。例如自動駕駛領(lǐng)域,如果一家數(shù)據(jù)標(biāo)注服務(wù)商沒有4D標(biāo)注工具和能力,現(xiàn)在可能沒有辦法跟主機(jī)廠合作。
總之,市場開始變得更卷。更多類的參與主體,行業(yè)里的智能化、自動化趨勢使得從前單純疊人力、沒有技術(shù)含量的數(shù)據(jù)標(biāo)注范式逐漸在喪失生存空間。
林群書透露,由于智能化工具減少了人工標(biāo)注的工作量,同樣的數(shù)據(jù)標(biāo)注任務(wù)他們可以用更少的成本達(dá)到更高質(zhì)量的標(biāo)注。由于有了技術(shù)紅利,他們還能釋放一部分成本優(yōu)勢給客戶,降低單位數(shù)據(jù)標(biāo)注任務(wù)的價(jià)格。
這是一個持續(xù)有需求的市場。2019年艾瑞咨詢的報(bào)告中評估,市場在2025年將達(dá)到百億規(guī)模,但實(shí)際上,業(yè)界人士評估目前國內(nèi)市場整體規(guī)??赡茉诮衲昃鸵呀?jīng)達(dá)到了百億水準(zhǔn)。市場需求正在加速釋放,行業(yè)正在從勞動密集型向技術(shù)密集型轉(zhuǎn)變。
一位業(yè)界人士稱,一場淘汰賽已經(jīng)開啟,行業(yè)內(nèi)競爭加劇,今年剩者為王更為明顯。