文|正見TrueView 嵐羽
編輯|TV
再過不足一月時間,歷史的指針將正式指向2024。大模型“井噴”之勢下,數(shù)字科技在全球新一輪科技浪潮中的趨勢與走向,是創(chuàng)新者提前備賽的重要發(fā)展指南。
需要進(jìn)行前情提要的是,數(shù)字科技一定是硬科技,但硬科技不等于硬件科技,人工智能、大數(shù)據(jù)、云計算、區(qū)塊鏈、虛擬現(xiàn)實等數(shù)字科技也是硬科技。數(shù)字技術(shù)不僅有很高的技術(shù)門檻,同時能夠賦能千行百業(yè)、提升效率。突破卡脖子技術(shù)需要“軟硬結(jié)合”,硬件技術(shù)和數(shù)字技術(shù)缺一不可。
以大模型浪潮為例,涉及到的即有芯片、服務(wù)器、通信網(wǎng)絡(luò)等硬件領(lǐng)域,也包括云計算、數(shù)據(jù)庫、虛擬化等軟件層。短短一年間,大模型已從概念走向業(yè)務(wù)場景應(yīng)用,加速通用人工智能演進(jìn),過程中國內(nèi)頭部科技廠商起到了引領(lǐng)發(fā)展的重要作用。
爆發(fā)源于沉淀。這與大企業(yè)多年創(chuàng)新積累不無關(guān)系,由此才能以“時刻準(zhǔn)備著”的姿態(tài)抓住窗口期。在推動技術(shù)進(jìn)步的進(jìn)程中,大企業(yè)有自己獨特的優(yōu)勢,鼓勵大企業(yè)發(fā)展、努力培育更多在國際市場中有競爭力的大型科技企業(yè),是國際市場競爭戰(zhàn)略。
而作為經(jīng)濟發(fā)展中最活躍的創(chuàng)新要素,企業(yè)創(chuàng)新,才能產(chǎn)業(yè)創(chuàng)新。
01 國產(chǎn)大模型百舸爭流,加速拓展應(yīng)用廣度與深度
預(yù)判2024,大模型是無法回避的話題。過去一年,國內(nèi)外大模型加速發(fā)展。其中,海外市場繼GPT-4發(fā)布后,OpenAI推出了更強大收費更低的GPT-4 Turbo、人人都可定制的GPTs服務(wù)以及GPT商店。除此之外,Google、Anthropic、Cohere、HuggingFace都在不遺余力地推進(jìn)大模型。
國內(nèi)市場同樣百花齊放,騰訊、阿里、百度、華為、科大訊飛等廠商結(jié)合自身業(yè)務(wù)和戰(zhàn)略布局,發(fā)布了各自的大模型技術(shù)路線與產(chǎn)品。有數(shù)據(jù)顯示,截至10月份國內(nèi)大模型發(fā)布已達(dá)238個,國產(chǎn)大模型呈百舸爭流之景象。
但無論國內(nèi)還是國際賽場,大模型的競賽終歸不是閃電戰(zhàn),而是持久戰(zhàn)。短期模型發(fā)布數(shù)量暴漲的背后,大模型的應(yīng)用方向和商業(yè)價值更值得深入探索,“下半場比拼的是場景和應(yīng)用的落地能力”已成業(yè)內(nèi)共識。
目前來看,大模型產(chǎn)業(yè)呈現(xiàn)出通用大模型和領(lǐng)域大模型互促共進(jìn)的發(fā)展態(tài)勢。通用大模型通常從通用語料訓(xùn)練生成,具備強大的自然語言理解、語言生成和語言識別等能力,在聊天、寫詩、作畫等泛娛樂場景上表現(xiàn)頗佳。而在更為嚴(yán)肅的工作場景、專業(yè)場景里,目前階段通用大模型無法大面積地勝任,例如法律、醫(yī)療、金融等。這是因為通用大模型一般基于公開信息進(jìn)行訓(xùn)練,在許多專業(yè)知識和行業(yè)數(shù)據(jù)方面積累不足。
領(lǐng)域大模型是基于通用大模型灌注行業(yè)知識精調(diào)形成,能夠更好地理解行業(yè)的語義和規(guī)范,更有效地執(zhí)行專業(yè)性更強的任務(wù)。當(dāng)前很多大廠從基礎(chǔ)大模型做起,搭配領(lǐng)域大模型,讓人工智能更好地服務(wù)于千行百業(yè)。
例如,華為在發(fā)布盤古大模型后,在醫(yī)藥、氣象、金融等領(lǐng)域布局了領(lǐng)域大模型,“盤古藥物分子大模型”使先導(dǎo)藥的研發(fā)周期從數(shù)年縮短至數(shù)月,研發(fā)成本降低70%,“盤古氣象大模型”能夠提供秒級的全球氣象預(yù)報。
騰訊方面推出了騰訊混元大模型和騰訊云MaaS(模型即服務(wù))?;煸鳛轵v訊云MaaS的基座,客戶可以直接通過API調(diào)用混元,也可以將混元作為基底模型,為不同產(chǎn)業(yè)場景構(gòu)建定制化的應(yīng)用。目前混元已接入騰訊逾300個業(yè)務(wù)和產(chǎn)品并取得初步效果,包括騰訊云、騰訊廣告、騰訊游戲、騰訊會議等。
從商業(yè)化落地情況來看,無論是通用類還是領(lǐng)域類,大模型最根本的出發(fā)點是解決產(chǎn)業(yè)場景中的實際問題,長遠(yuǎn)的目標(biāo)是以人工智能為代表的新一代數(shù)字技術(shù)引領(lǐng)新一輪的技術(shù)發(fā)展和產(chǎn)業(yè)重塑。但如果始終堅持通用類大模型,即便在100個場景中解決70%-80%的問題,卻很難完美解決某個問題;如果始終堅持領(lǐng)域大模型,而在底層模型投入不足的話,未來或許將與第一陣營漸行漸遠(yuǎn)。
以大模型為代表的人工智能技術(shù)應(yīng)在更加嚴(yán)肅的專業(yè)場景和工作場景中真正發(fā)揮價值,拓展應(yīng)用深度;從本文到圖像、音視頻等更多維度,多模態(tài)推動AI應(yīng)用廣度,進(jìn)而成為新的生產(chǎn)力。在當(dāng)前競爭階段,“兩條腿走路”的平衡戰(zhàn)略或許是最佳選擇,只有將通用大模型的能力提升至世界前沿水準(zhǔn),有了較強的基本能力和素質(zhì)后,才能在不同行業(yè)與場景的落地中實現(xiàn)務(wù)實創(chuàng)新。
放眼全球,技術(shù)進(jìn)步的速度不會放緩,大模型更是展現(xiàn)出了革命性的技術(shù)進(jìn)步,以人工智能為代表的數(shù)字科技正在奔涌向前。跟進(jìn)與超越,是不可逆的技術(shù)洪流。
02 數(shù)字科技將成國際競爭重要戰(zhàn)場,關(guān)鍵技術(shù)應(yīng)當(dāng)自主可控
大模型是新型基礎(chǔ)設(shè)施的關(guān)鍵底座之一,因此大模型的競爭也是國家科技戰(zhàn)略的競爭。在大國博弈的背景下,以人工智能、大數(shù)據(jù)、云計算、區(qū)塊鏈等新一代的數(shù)字科技將是未來國與國競爭的重要戰(zhàn)場。
但新的數(shù)字科技既是重大機遇,也是艱難挑戰(zhàn)。作為底層技術(shù)能力,數(shù)字技術(shù)勢必將向上賦能各行各業(yè),同時助力科學(xué)技術(shù)發(fā)展。但除了像芯片這樣的硬件領(lǐng)域,在以大模型、人工智能為代表的數(shù)字技術(shù)方面也存在“卡脖子”問題。如數(shù)據(jù)和算力,就是當(dāng)前想要布局全棧自主創(chuàng)新的大模型產(chǎn)品的主要制約因素。
數(shù)據(jù)是大模型的基礎(chǔ)燃料,決定了模型的訓(xùn)練質(zhì)量、性能表現(xiàn)和應(yīng)用領(lǐng)域的廣度和深度。但其實國內(nèi)不缺海量數(shù)據(jù),缺的是高質(zhì)量的中文語料。據(jù)國家網(wǎng)信辦數(shù)據(jù)顯示,2022年我國數(shù)據(jù)產(chǎn)量達(dá)8.1ZB,位列全球第二;我國數(shù)據(jù)存儲量達(dá)724.5EB,全球占比為14.4%。但在ChatGPT大模型訓(xùn)練中,中文占比不到0.1%,這也與中文開源語料庫數(shù)量少和規(guī)模小有關(guān)。
值得關(guān)注的是,構(gòu)建中文開源數(shù)據(jù)集的步伐正在加快。今年以來,《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)(征求意見稿)》中提到,要組織有關(guān)機構(gòu)整合、清洗中文預(yù)訓(xùn)練數(shù)據(jù),形成安全合規(guī)的開放基礎(chǔ)訓(xùn)練數(shù)據(jù)集;持續(xù)擴展多模態(tài)數(shù)據(jù)來源,建設(shè)高質(zhì)量的文字、圖片、音頻、視頻等大模型預(yù)訓(xùn)練語料庫。此外,復(fù)旦大學(xué)團隊開源包含47萬高質(zhì)量監(jiān)督微調(diào)(sft)數(shù)據(jù)集disc-med-sft,華為諾亞方舟實驗室開源第一個億級中文跨模態(tài)數(shù)據(jù)集。
而算力是大模型完成訓(xùn)練和推理過程的基石,大模型浪潮驅(qū)動智能算力需求激增。從算力規(guī)模方面看,根據(jù)信通院統(tǒng)計,2022年我國算力總規(guī)模超150EFLOPS,位居世界第二,并保持高增長速度。
面對數(shù)字技術(shù)巨大的價值和應(yīng)用前景,雖距離世界頂尖水平仍有差距,但國內(nèi)產(chǎn)業(yè)相關(guān)主體努力布局前沿、攻克關(guān)鍵技術(shù)的步履從未停止。中國數(shù)字科技有自己的積累和場景優(yōu)勢,面對大模型為代表的數(shù)字技術(shù)方面存在的“卡脖子”問題,中國企業(yè)正在努力掌握關(guān)鍵核心技術(shù),攜手構(gòu)建自主可控生態(tài),在數(shù)字科技領(lǐng)域縮小與世界領(lǐng)先水平的差距。
03 大企業(yè)領(lǐng)軍參與國際競爭,帶動產(chǎn)業(yè)鏈條創(chuàng)新提升
大企業(yè)往往在基礎(chǔ)研究、原始創(chuàng)新、技術(shù)商業(yè)落地、高效迭代等能力范疇上表現(xiàn)突出,是創(chuàng)新型企業(yè)中的佼佼者。面對更加殘酷的國際市場競爭,以及國內(nèi)科技實力從量的積累邁向質(zhì)的飛躍、從點的突破邁向系統(tǒng)能力提升的關(guān)鍵節(jié)點,應(yīng)當(dāng)重視大企業(yè)的發(fā)展,發(fā)揮大企業(yè)的作用。
在新時代新征程上,如何讓大企業(yè)在自主創(chuàng)新中“挑大梁”,發(fā)揮大企業(yè)承擔(dān)關(guān)鍵技術(shù)攻關(guān)、提升創(chuàng)新體系綜合效能、參與國際科技和產(chǎn)業(yè)競爭的優(yōu)勢,是下一階段需要思考的重要課題。
當(dāng)前國產(chǎn)大模型從發(fā)布數(shù)量上看,與世界先進(jìn)國家差距不大,但從影響力來看,國產(chǎn)大模型還未形成像ChatGPT、Bert一樣的世界性影響力。
這是由于以微軟、Google、Salesforce等為代表的科技巨頭大量資源資金投入的長期結(jié)果,為所在國大模型產(chǎn)業(yè)的發(fā)展積蓄了力量。如Google長期投身于研究基礎(chǔ)理論,最早在2017年提出Transformer網(wǎng)絡(luò)結(jié)構(gòu),成為近些年大模型領(lǐng)域大多數(shù)企業(yè)底層架構(gòu)的基礎(chǔ)。
技術(shù)創(chuàng)新有其自身的規(guī)律,數(shù)字科技具有投入大、高風(fēng)險、回報周期長等特性。當(dāng)下的科技創(chuàng)新不僅需要實現(xiàn)“從無到有”的突破,更需要平衡成本、效率、效果的“不可能三角”,解決商業(yè)化、市場等一系列應(yīng)用問題。
企業(yè)對于數(shù)字科技的投入,應(yīng)該是在創(chuàng)新中容許適當(dāng)失敗的、長期而又持續(xù)的,是既有豐富的市場應(yīng)用實踐,又懂得科技成果轉(zhuǎn)化的。相比之下,大企業(yè)在創(chuàng)新投入和創(chuàng)新能力上更有優(yōu)勢,可以形成生態(tài),帶動中小企業(yè)的創(chuàng)新能力,進(jìn)而形成創(chuàng)新鏈條。
就大模型產(chǎn)業(yè)而言,訓(xùn)練成本高,研發(fā)難度大,“每家一個大模型”不太現(xiàn)實,一定需要一個“大電廠”,以及幾個大電廠形成互聯(lián)互通的算力中心。由此推測,最終的生態(tài)應(yīng)該是由少數(shù)幾家頭部廠商研發(fā)基礎(chǔ)大模型,中小企業(yè)注重精細(xì)的部分,高校側(cè)重基礎(chǔ)理論的研究,“建立生態(tài)+做細(xì)應(yīng)用+對齊科研”才有望在國際和國際市場競爭中贏得大模型產(chǎn)業(yè)博弈的彎道超車機會。
目前,國內(nèi)頭部企業(yè)正在不斷完善AI生態(tài)構(gòu)建。百度推出大模型生態(tài)政策;華為鼓勵更多伙伴加入盤古大模型全域協(xié)同生態(tài)體系;騰訊已經(jīng)與1萬1千家生態(tài)伙伴展開緊密合作,推出了覆蓋100多個產(chǎn)業(yè)場景的行業(yè)解決方案,騰訊云也發(fā)布了“大模型生態(tài)計劃”。
對于具有豐富行業(yè)數(shù)據(jù)積累的中小企業(yè),可以通過直接調(diào)用API或基于GPT大模型微調(diào)優(yōu)化自己的AI產(chǎn)品。然后基于開源模型或海量數(shù)據(jù),打造出更專業(yè)、更精準(zhǔn)的領(lǐng)域大模型,建立垂直行業(yè)的平臺生態(tài)。
因此在當(dāng)前環(huán)境中,應(yīng)當(dāng)發(fā)展大企業(yè),用大企業(yè)領(lǐng)軍大研究。大企業(yè)有更充足的資金、資源、人才,可持續(xù)投入和持續(xù)創(chuàng)造,進(jìn)行多方位甚至是冒險式的研發(fā)。在國際市場和國際科技發(fā)展中同樣如此,沒有大企業(yè)就很難擁有話語權(quán)。應(yīng)當(dāng)鼓勵企業(yè)做強做大,到國際上參與競爭。
根據(jù)全國工商聯(lián)數(shù)據(jù)顯示,2022年中國民營企業(yè)中研發(fā)投入最多的三家公司分別為華為、騰訊、阿里巴巴,三家企業(yè)研發(fā)投入合計約占全國總研發(fā)經(jīng)費支出的近7%。在全球企業(yè)排名中,三家公司的研發(fā)投入均排在前二十位。此外,華為在5G領(lǐng)域的專利數(shù)量已經(jīng)連續(xù)多年排名第一,掌握的關(guān)鍵核心技術(shù)專利最多;騰訊專利申請數(shù)量超6.6萬件,全球互聯(lián)網(wǎng)行業(yè)中僅次于谷歌,人工智能專利數(shù)超過1萬件……
在數(shù)字科技等前沿領(lǐng)域的探索中,頭部企業(yè)往往能夠較早布局和規(guī)劃,例如騰訊早在2018年就開始了大模型訓(xùn)練和推理的研發(fā),并設(shè)有實驗室專注量子計算、下一代機器人的研究等。
在新一輪的科技競爭和技術(shù)創(chuàng)新當(dāng)中,大企業(yè)的作用顯而易見,在帶動中小企業(yè)和大研究中發(fā)揮著引領(lǐng)作用,掌握關(guān)鍵核心技術(shù)、走向國際參與競爭,更需要大企業(yè)貢獻(xiàn)力量。
期望在未來的世界舞臺上,看到在“以大帶小”、“產(chǎn)學(xué)研”與“用”互為指導(dǎo)下,越來越多的中國企業(yè)身影。