正在閱讀:

大模型之戰(zhàn)下半場(chǎng):從通用到行業(yè)垂直,“向下”扎根

掃一掃下載界面新聞APP

大模型之戰(zhàn)下半場(chǎng):從通用到行業(yè)垂直,“向下”扎根

國(guó)內(nèi)有200+大模型推出,在各行各業(yè)“落子不斷”。

文|第一新聲 秋平 

編輯|也行 

近日,第一新聲聯(lián)合天眼查正式發(fā)布了《2023年中國(guó)AIGC創(chuàng)新企業(yè)系列榜》,從基礎(chǔ)層、模型層、應(yīng)用層三個(gè)維度展示了生成式AI的產(chǎn)業(yè)鏈布局。其中模型層主要包括通用大模型和垂直大模型(場(chǎng)景/領(lǐng)域/行業(yè)大模型)。 

目前基礎(chǔ)層只有頭部"氪金玩家"才有資格入局,不在激烈內(nèi)卷之列。應(yīng)用層是長(zhǎng)在大模型上的“高嶺之花”。而大模型作為生成式AI的基礎(chǔ)模型,為其提供強(qiáng)大的語(yǔ)言處理能力和廣泛的適用性。根據(jù)公開(kāi)資料顯示,截至今年10月份,國(guó)內(nèi)已經(jīng)發(fā)布了238個(gè)大模型?!鞍倌4髴?zhàn)”正廝殺得異常火熱! 

第一新聲從榜單評(píng)選與調(diào)研的過(guò)程中發(fā)現(xiàn),國(guó)內(nèi)大模型之戰(zhàn)正逐漸步入后半場(chǎng)。頭部科技企業(yè)的發(fā)力點(diǎn)開(kāi)始從通用大模型,轉(zhuǎn)向行業(yè)/領(lǐng)域等垂直大模型,開(kāi)始「向下」扎根。 

例如阿里云在10月31日不僅發(fā)布了通義千問(wèn)大模型最新的2.0版本,還推出了八大行業(yè)大模型;9月21日,華為云發(fā)布了盤古醫(yī)學(xué)大模型;9月19日,百度正式發(fā)布國(guó)內(nèi)首個(gè)“產(chǎn)業(yè)級(jí)”醫(yī)療AI大模型——靈醫(yī)大模型??梢哉f(shuō)繼“AI For Science”之后,大模型已然開(kāi)始步入“AI For Industries”階段。 

為了深入研究通用大模型和垂直大模型的發(fā)展方向和應(yīng)用效果,第一新聲特別采訪了3家企業(yè),以各家企業(yè)的實(shí)踐為出發(fā)點(diǎn),全面介紹了通用VS垂直大模型的演進(jìn)方向。 

01 國(guó)內(nèi)大模型超200+,聚焦3大基礎(chǔ)應(yīng)用場(chǎng)景 

從年初ChatGPT橫空出世至今,引爆了國(guó)內(nèi)外大模型的熱情,各路資金蜂擁而至。

據(jù)相關(guān)媒體報(bào)道,目前全球最大的大模型開(kāi)源社區(qū)Hugging Face上的預(yù)訓(xùn)練模型數(shù)量,已經(jīng)從此前積累的10萬(wàn)個(gè)增長(zhǎng)到了超過(guò)30萬(wàn)個(gè)。不知Open AI當(dāng)初發(fā)布ChatGPT的時(shí)候,是否預(yù)想到會(huì)有如今的盛況。

回歸國(guó)內(nèi)市場(chǎng)來(lái)看,據(jù)公開(kāi)資料不完全統(tǒng)計(jì)顯示,截至2023年11月底,國(guó)內(nèi)已經(jīng)有200+大模型推出,并且在各行各業(yè)“落子不斷”。從統(tǒng)計(jì)數(shù)據(jù)來(lái)看,除了通用大模型外,在金融行業(yè)的落地速度最快,有近15%的大模型都是金融垂直大模型。

在大模型廠商類型方面,國(guó)內(nèi)互聯(lián)網(wǎng)科技公司紛紛入局,包括百度、阿里、騰訊、華為等大廠,科大訊飛、商湯科技、曠視科技等垂直于AI領(lǐng)域的廠商,以及智譜華章、百川智能、達(dá)觀數(shù)據(jù)、等大模型初創(chuàng)企業(yè),還有金融、汽車、教育、智能家居、消費(fèi)電子等垂直行業(yè)企業(yè)也基于垂直領(lǐng)域人工智能技術(shù)和數(shù)據(jù)積累等能力,推出大模型。

值得注意的是,今年上半年,大家關(guān)注點(diǎn)主要集中在大模型的參數(shù)數(shù)量和效果優(yōu)化上。從下半年開(kāi)始,將關(guān)注重點(diǎn)轉(zhuǎn)向如何實(shí)際進(jìn)行應(yīng)用,以及企業(yè)怎樣利用其能力帶來(lái)革命性提效。第一新聲采訪到的三家企業(yè),經(jīng)過(guò)半年實(shí)踐,也逐漸摸索出各具特色的大模型發(fā)展道路。

例如沃豐科技于今年4月推出的“原心大模型”,其解決方案吸收了通用大模型能力,并在營(yíng)銷+服務(wù)領(lǐng)域的8年經(jīng)驗(yàn)基礎(chǔ)上進(jìn)行行業(yè)知識(shí)訓(xùn)練,將通用大模型轉(zhuǎn)變?yōu)樾袠I(yè)專家,并能依托企業(yè)信息搭建專屬知識(shí)庫(kù)。目前沃豐科技已成功將該大模型應(yīng)用于旗下Udesk、GaussMind、ServiceGo、微豐四大產(chǎn)品線。

沃豐科技AI算法專家趙超表示:“大模型對(duì)算力和數(shù)據(jù)有巨大需求,而沃豐科技自成立以來(lái)就積累了大量線上文字、文本和語(yǔ)音數(shù)據(jù)。基于現(xiàn)有數(shù)據(jù),公司計(jì)劃針對(duì)行業(yè)或特定場(chǎng)景進(jìn)行模型迭代。為此,團(tuán)隊(duì)采用行業(yè)開(kāi)源模型,并利用自己在客服行業(yè)積累的數(shù)據(jù),進(jìn)行模型的優(yōu)化和創(chuàng)新,以更好地滿足行業(yè)需求,并提高在特定場(chǎng)景中的應(yīng)用效果?!?/p>

在大模型全量參數(shù)的迭代中,會(huì)遇到一些技巧和語(yǔ)言問(wèn)題,為此沃豐科技采取了兩種訓(xùn)練策略。一是固定一部分參數(shù),只對(duì)其余參數(shù)進(jìn)行迭代。二是在通用大模型基礎(chǔ)上,進(jìn)行小模型迭代。

云從科技在5月份正式推出“從容大模型”,最大的特色就是云從科技具有多模態(tài)系列大模型,并具有對(duì)行業(yè)大模型的調(diào)整能力,可以根據(jù)行業(yè)場(chǎng)景需求去幫助客戶部署模型,實(shí)現(xiàn)性價(jià)比最優(yōu)。7月份云從科技攜手華為正式聯(lián)合發(fā)布了“從容大模型訓(xùn)推一體化解決方案”。該方案基于云從從容大模型算法及工具,使得用戶可以輕松地訓(xùn)練、構(gòu)建和管理自己的大模型。

對(duì)于國(guó)內(nèi)市場(chǎng)的繁榮現(xiàn)象及公司在大模型方面的規(guī)劃,云從科技副總裁張立向第一新聲表示:“實(shí)際上,公司兩年前就已經(jīng)在大模型領(lǐng)域進(jìn)行技術(shù)儲(chǔ)備。由于此前芯片和算力沒(méi)有達(dá)到高水準(zhǔn),導(dǎo)致大模型無(wú)法充分發(fā)揮其效能和效率。去年以英偉達(dá)為主導(dǎo)的 GPU 芯片性能有了顯著提升,尤其是并行計(jì)算能力,這使得大模型的訓(xùn)練更具產(chǎn)業(yè)化,得以成為可能,這才推動(dòng)了今年大模型產(chǎn)業(yè)和市場(chǎng)的蓬勃發(fā)展?!?/p>

達(dá)觀數(shù)據(jù)推出的“曹植”大模型是國(guó)內(nèi)首批垂直行業(yè)專用、自主可控的國(guó)產(chǎn)版GPT大語(yǔ)言模型,具備長(zhǎng)文本、垂直化和多語(yǔ)言特性,擅長(zhǎng)長(zhǎng)文檔寫(xiě)作、審核、翻譯等。

“一直以來(lái),達(dá)觀數(shù)據(jù)都專注于ToB領(lǐng)域,在金融和制造等行業(yè)積累了深厚的專業(yè)經(jīng)驗(yàn)。我們采取的落地路線是將大模型引入原有產(chǎn)品中,為客戶提供更有價(jià)值的服務(wù)。例如,達(dá)觀的智能文本處理平臺(tái)IDPS以往主要偏向文本抽取,需要標(biāo)注、訓(xùn)練、調(diào)優(yōu)等復(fù)雜步驟才能實(shí)現(xiàn)效果。而現(xiàn)在通過(guò)大模型能夠?qū)崿F(xiàn)無(wú)標(biāo)注的自動(dòng)抽取,顯著降低了交付成本。讓企業(yè)真正實(shí)現(xiàn)了降本增效?!边_(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒說(shuō)道。

第一新聲通過(guò)與三家受訪企業(yè)交流及此前調(diào)研發(fā)現(xiàn),目前企業(yè)對(duì)大模型常見(jiàn)的基礎(chǔ)應(yīng)用場(chǎng)景有以下三個(gè):第一個(gè),企業(yè)想要利用大模型直接生成文章、圖片、設(shè)計(jì)等,那么用GPT或者其他開(kāi)源大模型稍微Fine-tune(微調(diào))一下就可以直接使用,后續(xù)的工作也主要是進(jìn)行前端頁(yè)面設(shè)計(jì),不需要進(jìn)行過(guò)多的模型迭代。 

第二個(gè),企業(yè)希望大模型在提供服務(wù)時(shí)體現(xiàn)出企業(yè)屬性,比如回答與企業(yè)相關(guān)的問(wèn)題。這種情況下也很難為每個(gè)企業(yè)快速迭代出一個(gè)專屬模型,再加上企業(yè)的情況隨時(shí)都在變化,對(duì)應(yīng)模型也需要不斷調(diào)整。因此,將企業(yè)知識(shí)庫(kù)和大模型進(jìn)行結(jié)合是一種可行的方案。

當(dāng)然也有企業(yè)會(huì)對(duì)自己的知識(shí)庫(kù)有保密需求,不愿意將其提供給外部模型。在這種情況下,也可以基于自己訓(xùn)練的模型進(jìn)行部署。部署方式通常有兩種:一種是在企業(yè)自有模型的基礎(chǔ)上,使用企業(yè)知識(shí)庫(kù)進(jìn)行迭代,另一種是先通過(guò)RAG(RAG:Retrieval-Augmented Generation檢索增強(qiáng)生成)加強(qiáng)大模型理解能力,再結(jié)合知識(shí)庫(kù)。RAG最直接的優(yōu)勢(shì)就是能夠讓大模型利用自身的邏輯推導(dǎo)能力,去理解企業(yè)私有數(shù)據(jù),實(shí)現(xiàn)問(wèn)答能力的拓展。

第三個(gè),數(shù)據(jù)分析亦是一些企業(yè)常見(jiàn)場(chǎng)景。傳統(tǒng)的報(bào)表配置方式復(fù)雜,而且當(dāng)報(bào)表眾多時(shí),尋找特定報(bào)表很費(fèi)時(shí)。通過(guò)大模型的自然交互方式,用戶可以直接提問(wèn),實(shí)現(xiàn)智能化的數(shù)據(jù)查詢。這種交互式的數(shù)據(jù)分析方式直觀高效,用戶可以快速獲得所需信息,大大提升了使用體驗(yàn)。

02 通用VS垂直:各有千秋、互補(bǔ)關(guān)系 

通用大模型和垂直大模型各有其獨(dú)特的能力,它們之間是一種互補(bǔ)關(guān)系。

因?yàn)橥ㄓ么竽P途哂袕?qiáng)大的語(yǔ)言理解能力,能夠拓寬應(yīng)用范圍的廣度,而垂直大模型則瞄準(zhǔn)特定行業(yè)或需求,在精度和深度上更能滿足實(shí)際要求。這兩者不是對(duì)立面,而是相互支持、協(xié)同發(fā)展的關(guān)系。未來(lái),兩類大模型將會(huì)共生,成為賦能千行百業(yè)的關(guān)鍵。

對(duì)于這個(gè)觀點(diǎn),紀(jì)達(dá)麒也表示同意,“通用大模型和垂直大模型針對(duì)或解決問(wèn)題的目標(biāo)不盡相同,通用大模型需要具備更強(qiáng)的泛化性,而垂直大模型則必須要在垂直行業(yè)內(nèi)的應(yīng)用中保持高準(zhǔn)確度?!?/p>

提及通用大模型和垂直大模型的落地空間,他認(rèn)為有一個(gè)核心不同是在客戶需求方面,不同層次和規(guī)模的客戶對(duì)大模型的要求有所差異。例如在ToC端或中小型B端企業(yè)中,客戶對(duì)模型的效果要求較低,但更看重成本的控制。因此,他們可能會(huì)選擇使用通用大模型來(lái)解決部分問(wèn)題,以期用較低的成本實(shí)現(xiàn)水準(zhǔn)以上的效果。

然而,對(duì)于一些大型B端客戶來(lái)說(shuō),提升效果能力很大程度能對(duì)他們的業(yè)務(wù)帶來(lái)重大影響和價(jià)值,因此他們?cè)敢馔度敫嗟某杀尽_@些客戶可能會(huì)選擇訓(xùn)練垂直大模型,或者利用像達(dá)觀數(shù)據(jù)這樣的專業(yè)垂直大模型服務(wù),以獲得更優(yōu)秀的效果。在這種情況下,客戶的關(guān)注點(diǎn)不僅在于成本,更在于如何實(shí)現(xiàn)最佳業(yè)務(wù)效果。

因此,在大模型的應(yīng)用中,靈活選擇適合特定業(yè)務(wù)場(chǎng)景的模型策略是非常重要的。

趙超也表示,通用大模型迭代成本較高,需要大量的算力支持。相反,垂直大模型的決策成本較低,所需的算力較小。但垂直大模型根源始終在通用大模型,通常都是基于通用大模型采用SFT監(jiān)督微調(diào)(Supervised Fine-Tun-ing)等方式訓(xùn)練而來(lái)。并且,如果通用模型的基礎(chǔ)能力較強(qiáng),那么垂直模型的調(diào)優(yōu)成本也就相對(duì)較低。

在驗(yàn)證算法和策略時(shí),由于垂直大模型可以在較短的時(shí)間內(nèi)進(jìn)行迭代,驗(yàn)證效果,因此企業(yè)通常會(huì)優(yōu)先在垂直模型上進(jìn)行驗(yàn)證和調(diào)優(yōu)驗(yàn)證完成后,再將經(jīng)驗(yàn)應(yīng)用到通用模型上,從而提升通用模型的能力。待通用模型得到有效提升后,再對(duì)行業(yè)模型進(jìn)行迭代。是一個(gè)螺旋式的循環(huán)過(guò)程,促進(jìn)垂直模型和通用模型相互借鑒、相互補(bǔ)充,而不是往單一排斥方向的發(fā)展。

張立表示,從行業(yè)應(yīng)用角度來(lái)說(shuō),通用大模型不是一個(gè)產(chǎn)品,而是一種能力。企業(yè)想要購(gòu)買這種能力,通常要滿足三個(gè)條件?!暗谝?,要有充足的資金儲(chǔ)備。第二,要有所在行業(yè)構(gòu)建專屬模型的數(shù)據(jù)和Know- how積累。第三,要有相應(yīng)的技術(shù)能力。了解大模型技術(shù)的底層原理,以及如何訓(xùn)練出符合自身需求的模型這種能力的靈活性使得客戶可以更好地利用大模型技術(shù),滿足其特定領(lǐng)域的需求?!?/p>

另外,張立也強(qiáng)調(diào),大模型的落地應(yīng)用不可能是兩頭擔(dān)子一頭熱,取決于兩端。一方面供應(yīng)側(cè)要具備垂直行業(yè)落地大模型的積累和能力;另一方面,需求方要想清楚自己需要用大模型具體解決哪些問(wèn)題,達(dá)到什么目標(biāo)。

不過(guò),在趙超看來(lái),定制模型在垂直行業(yè)中可能具有更高的價(jià)值,主要表現(xiàn)在兩個(gè)方面:一是垂直行業(yè)模型可以更好地滿足企業(yè)特定需求,為企業(yè)創(chuàng)造更多的商業(yè)機(jī)會(huì)。二是使用不同大模型會(huì)帶來(lái)顯著的成本差異。因此,企業(yè)可以選擇在大模型上進(jìn)行優(yōu)化訓(xùn)練,將數(shù)十億參數(shù)的大模型壓縮到幾億參數(shù)規(guī)模的垂直模型。

“一種可行的解決方案是,利用大模型進(jìn)行數(shù)據(jù)標(biāo)注,然后用較小規(guī)模的模型進(jìn)行訓(xùn)練。這樣既可以為企業(yè)提供垂直模型的優(yōu)良效果,又可以降低硬件資源的使用門檻,從而在一定程度上減輕企業(yè)的成本負(fù)擔(dān)。通過(guò)精細(xì)調(diào)整模型參數(shù)規(guī)模,既可以滿足特定行業(yè)的需求,又可以在資源利用上實(shí)現(xiàn)更高的經(jīng)濟(jì)效率。這種策略有助于為企業(yè)提供更靈活、可持續(xù)的模型應(yīng)用方案?!壁w超說(shuō)道。

未來(lái)像聯(lián)合利華、麥當(dāng)勞、可口可樂(lè)等巨頭企業(yè)大概率都會(huì)訓(xùn)練出專屬大模型。趙超認(rèn)為,雖然從外部看來(lái)這是企業(yè)私有大模型,但其實(shí)一種訓(xùn)練方法是利用企業(yè)自有大量數(shù)據(jù)訓(xùn)練出一個(gè)完整模型。另一種方法是采用向量數(shù)據(jù)庫(kù)(vector database)策略,將內(nèi)部數(shù)據(jù)轉(zhuǎn)換為向量,再對(duì)向量進(jìn)行處理,得到一個(gè)較小的模型,與大模型結(jié)合使用。這種方法可以達(dá)到單獨(dú)訓(xùn)練模型的效果,而且成本也較低。“從客戶使用側(cè)來(lái)說(shuō),輸出的模型的帶有企業(yè)特征和特色,但從技術(shù)角度,本質(zhì)就是大模型加小模型的疊加使用?!?/p>

他還認(rèn)為,未來(lái)這種“大模型+小模型”的方式在實(shí)際應(yīng)用過(guò)程中,可能會(huì)很大程度上成為主流落地方式。因?yàn)閷?duì)基礎(chǔ)模型進(jìn)行頻繁迭代是困難的,而且需要高算力。除非是為了技術(shù)研究,否則購(gòu)買大量算力很大可能會(huì)造成資源浪費(fèi),而且收益不明顯。

03 如何突破算力、數(shù)據(jù)、算法三大門檻? 

大模型的應(yīng)用離不開(kāi)算力、數(shù)據(jù)和算法的支持。這意味著中小企業(yè)或算力不足的企業(yè),要想應(yīng)用大模型門檻會(huì)很高。

一是在算力方面,企業(yè)可以嘗試在不增加硬件成本的情況下,增加迭代次數(shù),提高模型的收斂速度。同時(shí),也可以通過(guò)將浮點(diǎn)數(shù)轉(zhuǎn)換為定點(diǎn)數(shù),以及對(duì)大規(guī)模矩陣運(yùn)算進(jìn)行預(yù)處理,來(lái)降低計(jì)算復(fù)雜度。這些方法都可以有效地節(jié)省算力資源,提高模型的訓(xùn)練效率和整體性能。事實(shí)上,學(xué)術(shù)界已經(jīng)在矩陣運(yùn)算方面取得了一些突破,例如目前學(xué)術(shù)界提出了一種針對(duì)超大矩陣的快速計(jì)算方法,比傳統(tǒng)的行列計(jì)算方式快了幾十倍。

對(duì)于算力方面,趙超的觀點(diǎn)是,一方面,算力不足的企業(yè)可以考慮用小規(guī)模算力做實(shí)驗(yàn),驗(yàn)證大模型的應(yīng)用效果。這也是企業(yè)內(nèi)部和學(xué)術(shù)界要思考的優(yōu)化方向之一。 另一方面,F(xiàn)ew-shot Learning(小樣本學(xué)習(xí))和Zero-Shot Learning(零樣本學(xué)習(xí))是目前備受歡迎的大模型訓(xùn)練技術(shù)。它們可以在數(shù)據(jù)不足的情況下展現(xiàn)出強(qiáng)大的學(xué)習(xí)和推理能力。數(shù)據(jù)不足的企業(yè)通過(guò)這種方法可以有效地應(yīng)用大模型,優(yōu)化性能。利用這兩種方法,可以持續(xù)優(yōu)化和創(chuàng)新性促進(jìn)大模型技術(shù)的廣泛應(yīng)用。

二是在算法方面,也需要探索更適合大模型的結(jié)構(gòu)和方法。目前,大多數(shù)大模型都是基于谷歌提出的Transformer模型構(gòu)建的。然而,Transformer模型并不一定就是最優(yōu)的選擇。例如,一些研究者在Transformer模型的基礎(chǔ)上引入了ResNet(深度殘差網(wǎng)絡(luò))等其他結(jié)構(gòu),并在圖像領(lǐng)域取得了不錯(cuò)的效果。因此,對(duì)于算法的創(chuàng)新和優(yōu)化仍然是一個(gè)有前景的方向。

三是在數(shù)據(jù)方面,需要考慮如何提高數(shù)據(jù)的質(zhì)量和適用性。隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),數(shù)據(jù)的類型和形式也變得更加多樣和復(fù)雜。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),需要預(yù)先對(duì)其進(jìn)行結(jié)構(gòu)化處理,以便于模型的學(xué)習(xí)和理解。同時(shí),還要對(duì)數(shù)據(jù)進(jìn)行清洗和篩選,去除其中的噪聲和無(wú)用信息。

以上這些路徑都可以有效地提高數(shù)據(jù)的有效性和可靠性,從而提高模型的泛化能力和適應(yīng)能力。

針對(duì)大模型的未來(lái)發(fā)展,張立的觀點(diǎn)是,大模型技術(shù)的發(fā)展會(huì)從研發(fā)驅(qū)動(dòng)轉(zhuǎn)向生態(tài)驅(qū)動(dòng),這是一個(gè)必然的趨勢(shì)??蛻魧?duì)于大模型的需求會(huì)越來(lái)越復(fù)雜,大模型廠商無(wú)法直接解決客戶所有問(wèn)題,也不可能對(duì)所有行業(yè)的know- how都有全面和深刻的掌握。因此大模型的落地應(yīng)用需要借助各個(gè)行業(yè)內(nèi)的專業(yè)信息化服務(wù)公司協(xié)同支持。

“這種合作模式能夠更有效地應(yīng)對(duì)不同領(lǐng)域的專業(yè)需求,讓大模型的應(yīng)用更快速和深入地滲透到各個(gè)產(chǎn)業(yè)鏈中。而且通過(guò)與信息化公司的密切合作,大模型廠商還能夠構(gòu)建起生態(tài)系統(tǒng),讓大模型的發(fā)展更加全面和可持續(xù)?!睆埩⒄f(shuō)道。

04 大模型落地兩大難題 

盡管大模型的發(fā)展目前非常活躍和熱鬧,但在實(shí)際落地方面仍然存在兩大難點(diǎn)。

難點(diǎn)一:如何找到合適的應(yīng)用場(chǎng)景?

紀(jì)達(dá)麒表示,要想讓大模型技術(shù)真正落地,不僅要依靠大模型本身,還要考慮中間實(shí)施過(guò)程和到達(dá)最后一公里的路徑,即設(shè)計(jì)出合適的產(chǎn)品形態(tài),選擇最優(yōu)的性價(jià)比,控制好機(jī)器資源成本,最終找到最佳的落地效果。因此,需要有既懂大模型又了解行業(yè)的專業(yè)人士,來(lái)共同解決這個(gè)問(wèn)題。

在ToB行業(yè)化中,一個(gè)主要問(wèn)題是監(jiān)管難度的提高。在ToC端,也要面對(duì)備案等法規(guī)要求。傳統(tǒng)互聯(lián)網(wǎng)時(shí)代,能夠以相對(duì)容易地方式審核文本內(nèi)容,及時(shí)發(fā)現(xiàn)和處理一些涉及意識(shí)形態(tài)等有問(wèn)題的內(nèi)容。但是,大模型讓監(jiān)管難度顯著增加。因此在落地過(guò)程中,如何進(jìn)行有效監(jiān)管成為一個(gè)亟待解決的問(wèn)題。否則會(huì)面臨濫用、不當(dāng)使用或者其他潛在的法律問(wèn)題。在解決監(jiān)管問(wèn)題的同時(shí),還需要思考如何讓更多的人從大模型的應(yīng)用中受益。一言以蔽之,如何保證合理監(jiān)管和推動(dòng)社會(huì)效益之間的平衡是一個(gè)全行業(yè)都需要認(rèn)真思考和解決的關(guān)鍵問(wèn)題。

“達(dá)觀數(shù)據(jù)的工程師團(tuán)隊(duì)在客戶提供數(shù)據(jù)后,會(huì)根據(jù)具體情況進(jìn)行處理,做到這一步其實(shí)還算順利。但更難的問(wèn)題是,如何結(jié)合大模型,充分發(fā)揮數(shù)據(jù)的價(jià)值,賦能企業(yè)實(shí)現(xiàn)更明確的業(yè)務(wù)目標(biāo)。這就需要制定清晰的業(yè)務(wù)策略,明確產(chǎn)品的功能和特性,以及確保整個(gè)過(guò)程能夠有效地滿足客戶的需求。”紀(jì)達(dá)麒強(qiáng)調(diào)道。

因此,當(dāng)前所有企業(yè)面臨的挑戰(zhàn)是對(duì)大模型應(yīng)用的戰(zhàn)略性思考,以及將這些思考轉(zhuǎn)化為具體的產(chǎn)品設(shè)計(jì)和實(shí)施步驟。要解決這一挑戰(zhàn),需要綜合運(yùn)用數(shù)據(jù)科學(xué)、業(yè)務(wù)洞察和技術(shù)專業(yè)知識(shí),形成一個(gè)全面而可行的解決方案。最終,通過(guò)深度戰(zhàn)略規(guī)劃和清晰的產(chǎn)品設(shè)計(jì),更好地發(fā)揮數(shù)據(jù)和大模型的潛力,實(shí)現(xiàn)更有針對(duì)性和有效的業(yè)務(wù)成果。

如今,人們的關(guān)注點(diǎn)不僅僅是如何開(kāi)發(fā)出優(yōu)秀的大型模型,更多的是如何更好地應(yīng)用這些模型。這就需要考慮解決方案的層面,特別是用戶的體驗(yàn)層面,而不是只局限于像OpenAI聊天能力這樣的應(yīng)用,或者只是解決類似于搜索引擎的問(wèn)題。

當(dāng)前和未來(lái)的趨勢(shì)也表明,人們希望在更多場(chǎng)景中應(yīng)用人工智能,并把它作為底層平臺(tái)。這就需要企業(yè)進(jìn)行從 0 到 1 的創(chuàng)新,不斷找到一些適合落地并能夠大規(guī)模推廣的場(chǎng)景,從而有更多的落地靈感和方法論,增強(qiáng)大家對(duì)這一領(lǐng)域的信心。我相信明年大模型的落地一定會(huì)非常多。

難點(diǎn)二:戰(zhàn)略規(guī)劃和軟硬件設(shè)施很難完美兼容。

張立解釋造成該難點(diǎn)因素有五個(gè)方面:一是客戶的目標(biāo)不明確,導(dǎo)致無(wú)法達(dá)到預(yù)期的效果。

二是很多客戶對(duì)大模型的認(rèn)識(shí)不足,誤以為這是一個(gè)成熟的產(chǎn)品,買來(lái)就可以開(kāi)箱即用。

三是即使前兩個(gè)問(wèn)題都解決了,為客戶制定了詳細(xì)的落地計(jì)劃,分階段地推進(jìn)大模型在客戶企業(yè)內(nèi)的應(yīng)用。但是,在這么長(zhǎng)的一段時(shí)間內(nèi),誰(shuí)也無(wú)法保證,客戶的戰(zhàn)略目標(biāo)是否會(huì)發(fā)生變化?這就涉及到客戶在大模型上的戰(zhàn)略布局的穩(wěn)定性和持續(xù)性。

四是大模型的落地必須是一個(gè)雙向的過(guò)程??蛻羰侵鹘?,技術(shù)公司是“教練”定位,負(fù)責(zé)陪伴和指導(dǎo)客戶前進(jìn)。但由于使用大模型對(duì)企業(yè)技術(shù)能力要求比較高,而很多客戶技術(shù)部門的信息化能力都很傳統(tǒng),最終導(dǎo)致客戶完全依賴技術(shù)公司,讓技術(shù)公司從“教練”變成了主角,發(fā)生關(guān)系錯(cuò)位。這是嚴(yán)重有問(wèn)題的,因?yàn)榧夹g(shù)公司的目標(biāo)是賦能多個(gè)產(chǎn)業(yè),不能只專注于某一個(gè)客戶。

五是大模型在垂類市場(chǎng)的應(yīng)用,不僅僅考慮模型能力,還要考慮硬件配置但不可能讓客戶把原來(lái)的硬件都徹底換掉,顛覆其原有的系統(tǒng),更重要的是考慮和原有系統(tǒng)的整合。這需要有工程化和集成的能力,幫助客戶大模型技術(shù)和已有資源合理整合起來(lái)。這就涉及到原來(lái)的系統(tǒng)、軟件、數(shù)據(jù)庫(kù)和硬件等的兼容性問(wèn)題。?

面對(duì)上述的難題,紀(jì)達(dá)麒的觀點(diǎn)是人們要達(dá)成兩點(diǎn)共識(shí)。首先,未來(lái)可能只有少數(shù)幾家廠商具備高質(zhì)量的提供底層通用大模型的能力,而垂直大模型和其產(chǎn)業(yè)化應(yīng)用將迎來(lái)非常多的機(jī)會(huì)和競(jìng)爭(zhēng)。未來(lái)企業(yè)內(nèi)部,可能會(huì)同時(shí)將多個(gè)大模型結(jié)合起來(lái),一起來(lái)去解決企業(yè)內(nèi)部的各種問(wèn)題。其次,企業(yè)的目標(biāo)是利用 AI 來(lái)解決問(wèn)題,而不是單純地和 AI 結(jié)合。因此,企業(yè)需要思考如何讓人和機(jī)器更好地協(xié)作,且以解決問(wèn)題為出發(fā)點(diǎn)。不是為了用大模型而追捧大模型。

張立也持同樣立場(chǎng),她認(rèn)為在利用大模型解決根本性問(wèn)題時(shí),需著眼于技術(shù)和產(chǎn)業(yè)化的有效結(jié)合。大模型廠商關(guān)注的焦點(diǎn)也應(yīng)當(dāng)是構(gòu)建基于模型的應(yīng)用或產(chǎn)品,以滿足客戶的實(shí)際需求,而不是為了推廣大模型而用大模型。若發(fā)現(xiàn)從容大模型無(wú)法勝任任務(wù),云從科技可以轉(zhuǎn)向使用其他大模型,甚至包括開(kāi)源模型。大家的目標(biāo)始終是以協(xié)同之力解決客戶所面臨的實(shí)際問(wèn)題。

“過(guò)去很多應(yīng)用從用戶側(cè)或許并不盡如人意,而引入大型模型則可以使其更加出色,更深刻理解用戶需求,實(shí)現(xiàn)更高程度的自動(dòng)化。企業(yè)今天不是要顛覆原來(lái)所有應(yīng)用,而是在其基礎(chǔ)上增添大型模型的強(qiáng)大能力。通過(guò)云化降低成本或提高訓(xùn)練效率,并迅速將這一技術(shù)產(chǎn)業(yè)化,使更多客戶以更為合理的成本享受大型模型的優(yōu)勢(shì)?!睆埩⒀a(bǔ)充道,

在AI落地的過(guò)程中,大型模型應(yīng)該是人類的伙伴,而非替代者。

校對(duì)/Tina 

策劃/Eason 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

百度

6k
  • 李彥宏堅(jiān)稱不做視頻生成模型,中國(guó)版Sora到底值不值得做?
  • 盤前機(jī)會(huì)前瞻| 工信部最新發(fā)聲!高級(jí)自動(dòng)駕駛技術(shù)有望實(shí)現(xiàn)重大突破,這幾家公司與百度、小鵬深度合作部分產(chǎn)品已經(jīng)量產(chǎn)(附概念股)

華為

8.2k
  • 盤前機(jī)會(huì)前瞻| 華為每年投入超60億激勵(lì)開(kāi)發(fā)者,鴻蒙系統(tǒng)迎來(lái)快速釋放期,這幾家鴻蒙產(chǎn)業(yè)鏈企業(yè)有望持續(xù)受益(附概念股)
  • 9月11日投資早報(bào)|延遲退休決定草案提請(qǐng)審議,華為發(fā)布全球首款三折疊屏手機(jī),今日一只新股上市

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

大模型之戰(zhàn)下半場(chǎng):從通用到行業(yè)垂直,“向下”扎根

國(guó)內(nèi)有200+大模型推出,在各行各業(yè)“落子不斷”。

文|第一新聲 秋平 

編輯|也行 

近日,第一新聲聯(lián)合天眼查正式發(fā)布了《2023年中國(guó)AIGC創(chuàng)新企業(yè)系列榜》,從基礎(chǔ)層、模型層、應(yīng)用層三個(gè)維度展示了生成式AI的產(chǎn)業(yè)鏈布局。其中模型層主要包括通用大模型和垂直大模型(場(chǎng)景/領(lǐng)域/行業(yè)大模型)。 

目前基礎(chǔ)層只有頭部"氪金玩家"才有資格入局,不在激烈內(nèi)卷之列。應(yīng)用層是長(zhǎng)在大模型上的“高嶺之花”。而大模型作為生成式AI的基礎(chǔ)模型,為其提供強(qiáng)大的語(yǔ)言處理能力和廣泛的適用性。根據(jù)公開(kāi)資料顯示,截至今年10月份,國(guó)內(nèi)已經(jīng)發(fā)布了238個(gè)大模型。“百模大戰(zhàn)”正廝殺得異?;馃?! 

第一新聲從榜單評(píng)選與調(diào)研的過(guò)程中發(fā)現(xiàn),國(guó)內(nèi)大模型之戰(zhàn)正逐漸步入后半場(chǎng)。頭部科技企業(yè)的發(fā)力點(diǎn)開(kāi)始從通用大模型,轉(zhuǎn)向行業(yè)/領(lǐng)域等垂直大模型,開(kāi)始「向下」扎根。 

例如阿里云在10月31日不僅發(fā)布了通義千問(wèn)大模型最新的2.0版本,還推出了八大行業(yè)大模型;9月21日,華為云發(fā)布了盤古醫(yī)學(xué)大模型;9月19日,百度正式發(fā)布國(guó)內(nèi)首個(gè)“產(chǎn)業(yè)級(jí)”醫(yī)療AI大模型——靈醫(yī)大模型??梢哉f(shuō)繼“AI For Science”之后,大模型已然開(kāi)始步入“AI For Industries”階段。 

為了深入研究通用大模型和垂直大模型的發(fā)展方向和應(yīng)用效果,第一新聲特別采訪了3家企業(yè),以各家企業(yè)的實(shí)踐為出發(fā)點(diǎn),全面介紹了通用VS垂直大模型的演進(jìn)方向。 

01 國(guó)內(nèi)大模型超200+,聚焦3大基礎(chǔ)應(yīng)用場(chǎng)景 

從年初ChatGPT橫空出世至今,引爆了國(guó)內(nèi)外大模型的熱情,各路資金蜂擁而至。

據(jù)相關(guān)媒體報(bào)道,目前全球最大的大模型開(kāi)源社區(qū)Hugging Face上的預(yù)訓(xùn)練模型數(shù)量,已經(jīng)從此前積累的10萬(wàn)個(gè)增長(zhǎng)到了超過(guò)30萬(wàn)個(gè)。不知Open AI當(dāng)初發(fā)布ChatGPT的時(shí)候,是否預(yù)想到會(huì)有如今的盛況。

回歸國(guó)內(nèi)市場(chǎng)來(lái)看,據(jù)公開(kāi)資料不完全統(tǒng)計(jì)顯示,截至2023年11月底,國(guó)內(nèi)已經(jīng)有200+大模型推出,并且在各行各業(yè)“落子不斷”。從統(tǒng)計(jì)數(shù)據(jù)來(lái)看,除了通用大模型外,在金融行業(yè)的落地速度最快,有近15%的大模型都是金融垂直大模型。

在大模型廠商類型方面,國(guó)內(nèi)互聯(lián)網(wǎng)科技公司紛紛入局,包括百度、阿里、騰訊、華為等大廠,科大訊飛、商湯科技、曠視科技等垂直于AI領(lǐng)域的廠商,以及智譜華章、百川智能、達(dá)觀數(shù)據(jù)、等大模型初創(chuàng)企業(yè),還有金融、汽車、教育、智能家居、消費(fèi)電子等垂直行業(yè)企業(yè)也基于垂直領(lǐng)域人工智能技術(shù)和數(shù)據(jù)積累等能力,推出大模型。

值得注意的是,今年上半年,大家關(guān)注點(diǎn)主要集中在大模型的參數(shù)數(shù)量和效果優(yōu)化上。從下半年開(kāi)始,將關(guān)注重點(diǎn)轉(zhuǎn)向如何實(shí)際進(jìn)行應(yīng)用,以及企業(yè)怎樣利用其能力帶來(lái)革命性提效。第一新聲采訪到的三家企業(yè),經(jīng)過(guò)半年實(shí)踐,也逐漸摸索出各具特色的大模型發(fā)展道路。

例如沃豐科技于今年4月推出的“原心大模型”,其解決方案吸收了通用大模型能力,并在營(yíng)銷+服務(wù)領(lǐng)域的8年經(jīng)驗(yàn)基礎(chǔ)上進(jìn)行行業(yè)知識(shí)訓(xùn)練,將通用大模型轉(zhuǎn)變?yōu)樾袠I(yè)專家,并能依托企業(yè)信息搭建專屬知識(shí)庫(kù)。目前沃豐科技已成功將該大模型應(yīng)用于旗下Udesk、GaussMind、ServiceGo、微豐四大產(chǎn)品線。

沃豐科技AI算法專家趙超表示:“大模型對(duì)算力和數(shù)據(jù)有巨大需求,而沃豐科技自成立以來(lái)就積累了大量線上文字、文本和語(yǔ)音數(shù)據(jù)?;诂F(xiàn)有數(shù)據(jù),公司計(jì)劃針對(duì)行業(yè)或特定場(chǎng)景進(jìn)行模型迭代。為此,團(tuán)隊(duì)采用行業(yè)開(kāi)源模型,并利用自己在客服行業(yè)積累的數(shù)據(jù),進(jìn)行模型的優(yōu)化和創(chuàng)新,以更好地滿足行業(yè)需求,并提高在特定場(chǎng)景中的應(yīng)用效果?!?/p>

在大模型全量參數(shù)的迭代中,會(huì)遇到一些技巧和語(yǔ)言問(wèn)題,為此沃豐科技采取了兩種訓(xùn)練策略。一是固定一部分參數(shù),只對(duì)其余參數(shù)進(jìn)行迭代。二是在通用大模型基礎(chǔ)上,進(jìn)行小模型迭代。

云從科技在5月份正式推出“從容大模型”,最大的特色就是云從科技具有多模態(tài)系列大模型,并具有對(duì)行業(yè)大模型的調(diào)整能力,可以根據(jù)行業(yè)場(chǎng)景需求去幫助客戶部署模型,實(shí)現(xiàn)性價(jià)比最優(yōu)。7月份云從科技攜手華為正式聯(lián)合發(fā)布了“從容大模型訓(xùn)推一體化解決方案”。該方案基于云從從容大模型算法及工具,使得用戶可以輕松地訓(xùn)練、構(gòu)建和管理自己的大模型。

對(duì)于國(guó)內(nèi)市場(chǎng)的繁榮現(xiàn)象及公司在大模型方面的規(guī)劃,云從科技副總裁張立向第一新聲表示:“實(shí)際上,公司兩年前就已經(jīng)在大模型領(lǐng)域進(jìn)行技術(shù)儲(chǔ)備。由于此前芯片和算力沒(méi)有達(dá)到高水準(zhǔn),導(dǎo)致大模型無(wú)法充分發(fā)揮其效能和效率。去年以英偉達(dá)為主導(dǎo)的 GPU 芯片性能有了顯著提升,尤其是并行計(jì)算能力,這使得大模型的訓(xùn)練更具產(chǎn)業(yè)化,得以成為可能,這才推動(dòng)了今年大模型產(chǎn)業(yè)和市場(chǎng)的蓬勃發(fā)展。”

達(dá)觀數(shù)據(jù)推出的“曹植”大模型是國(guó)內(nèi)首批垂直行業(yè)專用、自主可控的國(guó)產(chǎn)版GPT大語(yǔ)言模型,具備長(zhǎng)文本、垂直化和多語(yǔ)言特性,擅長(zhǎng)長(zhǎng)文檔寫(xiě)作、審核、翻譯等。

“一直以來(lái),達(dá)觀數(shù)據(jù)都專注于ToB領(lǐng)域,在金融和制造等行業(yè)積累了深厚的專業(yè)經(jīng)驗(yàn)。我們采取的落地路線是將大模型引入原有產(chǎn)品中,為客戶提供更有價(jià)值的服務(wù)。例如,達(dá)觀的智能文本處理平臺(tái)IDPS以往主要偏向文本抽取,需要標(biāo)注、訓(xùn)練、調(diào)優(yōu)等復(fù)雜步驟才能實(shí)現(xiàn)效果。而現(xiàn)在通過(guò)大模型能夠?qū)崿F(xiàn)無(wú)標(biāo)注的自動(dòng)抽取,顯著降低了交付成本。讓企業(yè)真正實(shí)現(xiàn)了降本增效。”達(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒說(shuō)道。

第一新聲通過(guò)與三家受訪企業(yè)交流及此前調(diào)研發(fā)現(xiàn),目前企業(yè)對(duì)大模型常見(jiàn)的基礎(chǔ)應(yīng)用場(chǎng)景有以下三個(gè):第一個(gè),企業(yè)想要利用大模型直接生成文章、圖片、設(shè)計(jì)等,那么用GPT或者其他開(kāi)源大模型稍微Fine-tune(微調(diào))一下就可以直接使用,后續(xù)的工作也主要是進(jìn)行前端頁(yè)面設(shè)計(jì),不需要進(jìn)行過(guò)多的模型迭代。 

第二個(gè),企業(yè)希望大模型在提供服務(wù)時(shí)體現(xiàn)出企業(yè)屬性,比如回答與企業(yè)相關(guān)的問(wèn)題。這種情況下也很難為每個(gè)企業(yè)快速迭代出一個(gè)專屬模型,再加上企業(yè)的情況隨時(shí)都在變化,對(duì)應(yīng)模型也需要不斷調(diào)整。因此,將企業(yè)知識(shí)庫(kù)和大模型進(jìn)行結(jié)合是一種可行的方案。

當(dāng)然也有企業(yè)會(huì)對(duì)自己的知識(shí)庫(kù)有保密需求,不愿意將其提供給外部模型。在這種情況下,也可以基于自己訓(xùn)練的模型進(jìn)行部署。部署方式通常有兩種:一種是在企業(yè)自有模型的基礎(chǔ)上,使用企業(yè)知識(shí)庫(kù)進(jìn)行迭代,另一種是先通過(guò)RAG(RAG:Retrieval-Augmented Generation檢索增強(qiáng)生成)加強(qiáng)大模型理解能力,再結(jié)合知識(shí)庫(kù)。RAG最直接的優(yōu)勢(shì)就是能夠讓大模型利用自身的邏輯推導(dǎo)能力,去理解企業(yè)私有數(shù)據(jù),實(shí)現(xiàn)問(wèn)答能力的拓展。

第三個(gè),數(shù)據(jù)分析亦是一些企業(yè)常見(jiàn)場(chǎng)景。傳統(tǒng)的報(bào)表配置方式復(fù)雜,而且當(dāng)報(bào)表眾多時(shí),尋找特定報(bào)表很費(fèi)時(shí)。通過(guò)大模型的自然交互方式,用戶可以直接提問(wèn),實(shí)現(xiàn)智能化的數(shù)據(jù)查詢。這種交互式的數(shù)據(jù)分析方式直觀高效,用戶可以快速獲得所需信息,大大提升了使用體驗(yàn)。

02 通用VS垂直:各有千秋、互補(bǔ)關(guān)系 

通用大模型和垂直大模型各有其獨(dú)特的能力,它們之間是一種互補(bǔ)關(guān)系。

因?yàn)橥ㄓ么竽P途哂袕?qiáng)大的語(yǔ)言理解能力,能夠拓寬應(yīng)用范圍的廣度,而垂直大模型則瞄準(zhǔn)特定行業(yè)或需求,在精度和深度上更能滿足實(shí)際要求。這兩者不是對(duì)立面,而是相互支持、協(xié)同發(fā)展的關(guān)系。未來(lái),兩類大模型將會(huì)共生,成為賦能千行百業(yè)的關(guān)鍵。

對(duì)于這個(gè)觀點(diǎn),紀(jì)達(dá)麒也表示同意,“通用大模型和垂直大模型針對(duì)或解決問(wèn)題的目標(biāo)不盡相同,通用大模型需要具備更強(qiáng)的泛化性,而垂直大模型則必須要在垂直行業(yè)內(nèi)的應(yīng)用中保持高準(zhǔn)確度?!?/p>

提及通用大模型和垂直大模型的落地空間,他認(rèn)為有一個(gè)核心不同是在客戶需求方面,不同層次和規(guī)模的客戶對(duì)大模型的要求有所差異。例如在ToC端或中小型B端企業(yè)中,客戶對(duì)模型的效果要求較低,但更看重成本的控制。因此,他們可能會(huì)選擇使用通用大模型來(lái)解決部分問(wèn)題,以期用較低的成本實(shí)現(xiàn)水準(zhǔn)以上的效果。

然而,對(duì)于一些大型B端客戶來(lái)說(shuō),提升效果能力很大程度能對(duì)他們的業(yè)務(wù)帶來(lái)重大影響和價(jià)值,因此他們?cè)敢馔度敫嗟某杀尽_@些客戶可能會(huì)選擇訓(xùn)練垂直大模型,或者利用像達(dá)觀數(shù)據(jù)這樣的專業(yè)垂直大模型服務(wù),以獲得更優(yōu)秀的效果。在這種情況下,客戶的關(guān)注點(diǎn)不僅在于成本,更在于如何實(shí)現(xiàn)最佳業(yè)務(wù)效果。

因此,在大模型的應(yīng)用中,靈活選擇適合特定業(yè)務(wù)場(chǎng)景的模型策略是非常重要的。

趙超也表示,通用大模型迭代成本較高,需要大量的算力支持。相反,垂直大模型的決策成本較低,所需的算力較小。但垂直大模型根源始終在通用大模型,通常都是基于通用大模型采用SFT監(jiān)督微調(diào)(Supervised Fine-Tun-ing)等方式訓(xùn)練而來(lái)。并且,如果通用模型的基礎(chǔ)能力較強(qiáng),那么垂直模型的調(diào)優(yōu)成本也就相對(duì)較低。

在驗(yàn)證算法和策略時(shí),由于垂直大模型可以在較短的時(shí)間內(nèi)進(jìn)行迭代,驗(yàn)證效果,因此企業(yè)通常會(huì)優(yōu)先在垂直模型上進(jìn)行驗(yàn)證和調(diào)優(yōu)驗(yàn)證完成后,再將經(jīng)驗(yàn)應(yīng)用到通用模型上,從而提升通用模型的能力。待通用模型得到有效提升后,再對(duì)行業(yè)模型進(jìn)行迭代。是一個(gè)螺旋式的循環(huán)過(guò)程,促進(jìn)垂直模型和通用模型相互借鑒、相互補(bǔ)充,而不是往單一排斥方向的發(fā)展。

張立表示,從行業(yè)應(yīng)用角度來(lái)說(shuō),通用大模型不是一個(gè)產(chǎn)品,而是一種能力。企業(yè)想要購(gòu)買這種能力,通常要滿足三個(gè)條件?!暗谝唬谐渥愕馁Y金儲(chǔ)備。第二,要有所在行業(yè)構(gòu)建專屬模型的數(shù)據(jù)和Know- how積累。第三,要有相應(yīng)的技術(shù)能力。了解大模型技術(shù)的底層原理,以及如何訓(xùn)練出符合自身需求的模型這種能力的靈活性使得客戶可以更好地利用大模型技術(shù),滿足其特定領(lǐng)域的需求?!?/p>

另外,張立也強(qiáng)調(diào),大模型的落地應(yīng)用不可能是兩頭擔(dān)子一頭熱,取決于兩端。一方面供應(yīng)側(cè)要具備垂直行業(yè)落地大模型的積累和能力;另一方面,需求方要想清楚自己需要用大模型具體解決哪些問(wèn)題,達(dá)到什么目標(biāo)。

不過(guò),在趙超看來(lái),定制模型在垂直行業(yè)中可能具有更高的價(jià)值,主要表現(xiàn)在兩個(gè)方面:一是垂直行業(yè)模型可以更好地滿足企業(yè)特定需求,為企業(yè)創(chuàng)造更多的商業(yè)機(jī)會(huì)。二是使用不同大模型會(huì)帶來(lái)顯著的成本差異。因此,企業(yè)可以選擇在大模型上進(jìn)行優(yōu)化訓(xùn)練,將數(shù)十億參數(shù)的大模型壓縮到幾億參數(shù)規(guī)模的垂直模型。

“一種可行的解決方案是,利用大模型進(jìn)行數(shù)據(jù)標(biāo)注,然后用較小規(guī)模的模型進(jìn)行訓(xùn)練。這樣既可以為企業(yè)提供垂直模型的優(yōu)良效果,又可以降低硬件資源的使用門檻,從而在一定程度上減輕企業(yè)的成本負(fù)擔(dān)。通過(guò)精細(xì)調(diào)整模型參數(shù)規(guī)模,既可以滿足特定行業(yè)的需求,又可以在資源利用上實(shí)現(xiàn)更高的經(jīng)濟(jì)效率。這種策略有助于為企業(yè)提供更靈活、可持續(xù)的模型應(yīng)用方案。”趙超說(shuō)道。

未來(lái)像聯(lián)合利華、麥當(dāng)勞、可口可樂(lè)等巨頭企業(yè)大概率都會(huì)訓(xùn)練出專屬大模型。趙超認(rèn)為,雖然從外部看來(lái)這是企業(yè)私有大模型,但其實(shí)一種訓(xùn)練方法是利用企業(yè)自有大量數(shù)據(jù)訓(xùn)練出一個(gè)完整模型。另一種方法是采用向量數(shù)據(jù)庫(kù)(vector database)策略,將內(nèi)部數(shù)據(jù)轉(zhuǎn)換為向量,再對(duì)向量進(jìn)行處理,得到一個(gè)較小的模型,與大模型結(jié)合使用。這種方法可以達(dá)到單獨(dú)訓(xùn)練模型的效果,而且成本也較低?!皬目蛻羰褂脗?cè)來(lái)說(shuō),輸出的模型的帶有企業(yè)特征和特色,但從技術(shù)角度,本質(zhì)就是大模型加小模型的疊加使用?!?/p>

他還認(rèn)為,未來(lái)這種“大模型+小模型”的方式在實(shí)際應(yīng)用過(guò)程中,可能會(huì)很大程度上成為主流落地方式。因?yàn)閷?duì)基礎(chǔ)模型進(jìn)行頻繁迭代是困難的,而且需要高算力。除非是為了技術(shù)研究,否則購(gòu)買大量算力很大可能會(huì)造成資源浪費(fèi),而且收益不明顯。

03 如何突破算力、數(shù)據(jù)、算法三大門檻? 

大模型的應(yīng)用離不開(kāi)算力、數(shù)據(jù)和算法的支持。這意味著中小企業(yè)或算力不足的企業(yè),要想應(yīng)用大模型門檻會(huì)很高。

一是在算力方面,企業(yè)可以嘗試在不增加硬件成本的情況下,增加迭代次數(shù),提高模型的收斂速度。同時(shí),也可以通過(guò)將浮點(diǎn)數(shù)轉(zhuǎn)換為定點(diǎn)數(shù),以及對(duì)大規(guī)模矩陣運(yùn)算進(jìn)行預(yù)處理,來(lái)降低計(jì)算復(fù)雜度。這些方法都可以有效地節(jié)省算力資源,提高模型的訓(xùn)練效率和整體性能。事實(shí)上,學(xué)術(shù)界已經(jīng)在矩陣運(yùn)算方面取得了一些突破,例如目前學(xué)術(shù)界提出了一種針對(duì)超大矩陣的快速計(jì)算方法,比傳統(tǒng)的行列計(jì)算方式快了幾十倍。

對(duì)于算力方面,趙超的觀點(diǎn)是,一方面,算力不足的企業(yè)可以考慮用小規(guī)模算力做實(shí)驗(yàn),驗(yàn)證大模型的應(yīng)用效果。這也是企業(yè)內(nèi)部和學(xué)術(shù)界要思考的優(yōu)化方向之一。 另一方面,F(xiàn)ew-shot Learning(小樣本學(xué)習(xí))和Zero-Shot Learning(零樣本學(xué)習(xí))是目前備受歡迎的大模型訓(xùn)練技術(shù)。它們可以在數(shù)據(jù)不足的情況下展現(xiàn)出強(qiáng)大的學(xué)習(xí)和推理能力。數(shù)據(jù)不足的企業(yè)通過(guò)這種方法可以有效地應(yīng)用大模型,優(yōu)化性能。利用這兩種方法,可以持續(xù)優(yōu)化和創(chuàng)新性促進(jìn)大模型技術(shù)的廣泛應(yīng)用。

二是在算法方面,也需要探索更適合大模型的結(jié)構(gòu)和方法。目前,大多數(shù)大模型都是基于谷歌提出的Transformer模型構(gòu)建的。然而,Transformer模型并不一定就是最優(yōu)的選擇。例如,一些研究者在Transformer模型的基礎(chǔ)上引入了ResNet(深度殘差網(wǎng)絡(luò))等其他結(jié)構(gòu),并在圖像領(lǐng)域取得了不錯(cuò)的效果。因此,對(duì)于算法的創(chuàng)新和優(yōu)化仍然是一個(gè)有前景的方向。

三是在數(shù)據(jù)方面,需要考慮如何提高數(shù)據(jù)的質(zhì)量和適用性。隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),數(shù)據(jù)的類型和形式也變得更加多樣和復(fù)雜。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),需要預(yù)先對(duì)其進(jìn)行結(jié)構(gòu)化處理,以便于模型的學(xué)習(xí)和理解。同時(shí),還要對(duì)數(shù)據(jù)進(jìn)行清洗和篩選,去除其中的噪聲和無(wú)用信息。

以上這些路徑都可以有效地提高數(shù)據(jù)的有效性和可靠性,從而提高模型的泛化能力和適應(yīng)能力。

針對(duì)大模型的未來(lái)發(fā)展,張立的觀點(diǎn)是,大模型技術(shù)的發(fā)展會(huì)從研發(fā)驅(qū)動(dòng)轉(zhuǎn)向生態(tài)驅(qū)動(dòng),這是一個(gè)必然的趨勢(shì)??蛻魧?duì)于大模型的需求會(huì)越來(lái)越復(fù)雜,大模型廠商無(wú)法直接解決客戶所有問(wèn)題,也不可能對(duì)所有行業(yè)的know- how都有全面和深刻的掌握。因此大模型的落地應(yīng)用需要借助各個(gè)行業(yè)內(nèi)的專業(yè)信息化服務(wù)公司協(xié)同支持。

“這種合作模式能夠更有效地應(yīng)對(duì)不同領(lǐng)域的專業(yè)需求,讓大模型的應(yīng)用更快速和深入地滲透到各個(gè)產(chǎn)業(yè)鏈中。而且通過(guò)與信息化公司的密切合作,大模型廠商還能夠構(gòu)建起生態(tài)系統(tǒng),讓大模型的發(fā)展更加全面和可持續(xù)?!睆埩⒄f(shuō)道。

04 大模型落地兩大難題 

盡管大模型的發(fā)展目前非?;钴S和熱鬧,但在實(shí)際落地方面仍然存在兩大難點(diǎn)。

難點(diǎn)一:如何找到合適的應(yīng)用場(chǎng)景?

紀(jì)達(dá)麒表示,要想讓大模型技術(shù)真正落地,不僅要依靠大模型本身,還要考慮中間實(shí)施過(guò)程和到達(dá)最后一公里的路徑,即設(shè)計(jì)出合適的產(chǎn)品形態(tài),選擇最優(yōu)的性價(jià)比,控制好機(jī)器資源成本,最終找到最佳的落地效果。因此,需要有既懂大模型又了解行業(yè)的專業(yè)人士,來(lái)共同解決這個(gè)問(wèn)題。

在ToB行業(yè)化中,一個(gè)主要問(wèn)題是監(jiān)管難度的提高。在ToC端,也要面對(duì)備案等法規(guī)要求。傳統(tǒng)互聯(lián)網(wǎng)時(shí)代,能夠以相對(duì)容易地方式審核文本內(nèi)容,及時(shí)發(fā)現(xiàn)和處理一些涉及意識(shí)形態(tài)等有問(wèn)題的內(nèi)容。但是,大模型讓監(jiān)管難度顯著增加。因此在落地過(guò)程中,如何進(jìn)行有效監(jiān)管成為一個(gè)亟待解決的問(wèn)題。否則會(huì)面臨濫用、不當(dāng)使用或者其他潛在的法律問(wèn)題。在解決監(jiān)管問(wèn)題的同時(shí),還需要思考如何讓更多的人從大模型的應(yīng)用中受益。一言以蔽之,如何保證合理監(jiān)管和推動(dòng)社會(huì)效益之間的平衡是一個(gè)全行業(yè)都需要認(rèn)真思考和解決的關(guān)鍵問(wèn)題。

“達(dá)觀數(shù)據(jù)的工程師團(tuán)隊(duì)在客戶提供數(shù)據(jù)后,會(huì)根據(jù)具體情況進(jìn)行處理,做到這一步其實(shí)還算順利。但更難的問(wèn)題是,如何結(jié)合大模型,充分發(fā)揮數(shù)據(jù)的價(jià)值,賦能企業(yè)實(shí)現(xiàn)更明確的業(yè)務(wù)目標(biāo)。這就需要制定清晰的業(yè)務(wù)策略,明確產(chǎn)品的功能和特性,以及確保整個(gè)過(guò)程能夠有效地滿足客戶的需求?!奔o(jì)達(dá)麒強(qiáng)調(diào)道。

因此,當(dāng)前所有企業(yè)面臨的挑戰(zhàn)是對(duì)大模型應(yīng)用的戰(zhàn)略性思考,以及將這些思考轉(zhuǎn)化為具體的產(chǎn)品設(shè)計(jì)和實(shí)施步驟。要解決這一挑戰(zhàn),需要綜合運(yùn)用數(shù)據(jù)科學(xué)、業(yè)務(wù)洞察和技術(shù)專業(yè)知識(shí),形成一個(gè)全面而可行的解決方案。最終,通過(guò)深度戰(zhàn)略規(guī)劃和清晰的產(chǎn)品設(shè)計(jì),更好地發(fā)揮數(shù)據(jù)和大模型的潛力,實(shí)現(xiàn)更有針對(duì)性和有效的業(yè)務(wù)成果。

如今,人們的關(guān)注點(diǎn)不僅僅是如何開(kāi)發(fā)出優(yōu)秀的大型模型,更多的是如何更好地應(yīng)用這些模型。這就需要考慮解決方案的層面,特別是用戶的體驗(yàn)層面,而不是只局限于像OpenAI聊天能力這樣的應(yīng)用,或者只是解決類似于搜索引擎的問(wèn)題。

當(dāng)前和未來(lái)的趨勢(shì)也表明,人們希望在更多場(chǎng)景中應(yīng)用人工智能,并把它作為底層平臺(tái)。這就需要企業(yè)進(jìn)行從 0 到 1 的創(chuàng)新,不斷找到一些適合落地并能夠大規(guī)模推廣的場(chǎng)景,從而有更多的落地靈感和方法論,增強(qiáng)大家對(duì)這一領(lǐng)域的信心。我相信明年大模型的落地一定會(huì)非常多。

難點(diǎn)二:戰(zhàn)略規(guī)劃和軟硬件設(shè)施很難完美兼容。

張立解釋造成該難點(diǎn)因素有五個(gè)方面:一是客戶的目標(biāo)不明確,導(dǎo)致無(wú)法達(dá)到預(yù)期的效果。

二是很多客戶對(duì)大模型的認(rèn)識(shí)不足,誤以為這是一個(gè)成熟的產(chǎn)品,買來(lái)就可以開(kāi)箱即用。

三是即使前兩個(gè)問(wèn)題都解決了,為客戶制定了詳細(xì)的落地計(jì)劃,分階段地推進(jìn)大模型在客戶企業(yè)內(nèi)的應(yīng)用。但是,在這么長(zhǎng)的一段時(shí)間內(nèi),誰(shuí)也無(wú)法保證,客戶的戰(zhàn)略目標(biāo)是否會(huì)發(fā)生變化?這就涉及到客戶在大模型上的戰(zhàn)略布局的穩(wěn)定性和持續(xù)性。

四是大模型的落地必須是一個(gè)雙向的過(guò)程。客戶是主角,技術(shù)公司是“教練”定位,負(fù)責(zé)陪伴和指導(dǎo)客戶前進(jìn)。但由于使用大模型對(duì)企業(yè)技術(shù)能力要求比較高,而很多客戶技術(shù)部門的信息化能力都很傳統(tǒng),最終導(dǎo)致客戶完全依賴技術(shù)公司,讓技術(shù)公司從“教練”變成了主角,發(fā)生關(guān)系錯(cuò)位。這是嚴(yán)重有問(wèn)題的,因?yàn)榧夹g(shù)公司的目標(biāo)是賦能多個(gè)產(chǎn)業(yè),不能只專注于某一個(gè)客戶。

五是大模型在垂類市場(chǎng)的應(yīng)用,不僅僅考慮模型能力,還要考慮硬件配置但不可能讓客戶把原來(lái)的硬件都徹底換掉,顛覆其原有的系統(tǒng),更重要的是考慮和原有系統(tǒng)的整合。這需要有工程化和集成的能力,幫助客戶大模型技術(shù)和已有資源合理整合起來(lái)。這就涉及到原來(lái)的系統(tǒng)、軟件、數(shù)據(jù)庫(kù)和硬件等的兼容性問(wèn)題。?

面對(duì)上述的難題,紀(jì)達(dá)麒的觀點(diǎn)是人們要達(dá)成兩點(diǎn)共識(shí)。首先,未來(lái)可能只有少數(shù)幾家廠商具備高質(zhì)量的提供底層通用大模型的能力,而垂直大模型和其產(chǎn)業(yè)化應(yīng)用將迎來(lái)非常多的機(jī)會(huì)和競(jìng)爭(zhēng)。未來(lái)企業(yè)內(nèi)部,可能會(huì)同時(shí)將多個(gè)大模型結(jié)合起來(lái),一起來(lái)去解決企業(yè)內(nèi)部的各種問(wèn)題。其次,企業(yè)的目標(biāo)是利用 AI 來(lái)解決問(wèn)題,而不是單純地和 AI 結(jié)合。因此,企業(yè)需要思考如何讓人和機(jī)器更好地協(xié)作,且以解決問(wèn)題為出發(fā)點(diǎn)。不是為了用大模型而追捧大模型。

張立也持同樣立場(chǎng),她認(rèn)為在利用大模型解決根本性問(wèn)題時(shí),需著眼于技術(shù)和產(chǎn)業(yè)化的有效結(jié)合。大模型廠商關(guān)注的焦點(diǎn)也應(yīng)當(dāng)是構(gòu)建基于模型的應(yīng)用或產(chǎn)品,以滿足客戶的實(shí)際需求,而不是為了推廣大模型而用大模型。若發(fā)現(xiàn)從容大模型無(wú)法勝任任務(wù),云從科技可以轉(zhuǎn)向使用其他大模型,甚至包括開(kāi)源模型。大家的目標(biāo)始終是以協(xié)同之力解決客戶所面臨的實(shí)際問(wèn)題。

“過(guò)去很多應(yīng)用從用戶側(cè)或許并不盡如人意,而引入大型模型則可以使其更加出色,更深刻理解用戶需求,實(shí)現(xiàn)更高程度的自動(dòng)化。企業(yè)今天不是要顛覆原來(lái)所有應(yīng)用,而是在其基礎(chǔ)上增添大型模型的強(qiáng)大能力。通過(guò)云化降低成本或提高訓(xùn)練效率,并迅速將這一技術(shù)產(chǎn)業(yè)化,使更多客戶以更為合理的成本享受大型模型的優(yōu)勢(shì)?!睆埩⒀a(bǔ)充道,

在AI落地的過(guò)程中,大型模型應(yīng)該是人類的伙伴,而非替代者。

校對(duì)/Tina 

策劃/Eason 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。