界面新聞?dòng)浾?| 李京亞
大模型一周年之際,業(yè)界對(duì)各類工作的重要程度開(kāi)始達(dá)成共識(shí),比如多位開(kāi)發(fā)者就公認(rèn),擴(kuò)展大模型上下文長(zhǎng)度是非常重要的工作,甚至?xí)蔀榇竽P吐涞氐钠款i,向量數(shù)據(jù)庫(kù)則是另一個(gè)。
從ChatGPT的4K到GPT-4的32K,從MPT-7B的65K到Claude的100K,進(jìn)入下半年,大模型的上下文窗口正變得越來(lái)越大。為在長(zhǎng)文檔問(wèn)答、長(zhǎng)文本摘要和RAG(檢索增強(qiáng)生成)等多種應(yīng)用場(chǎng)景中迅速落地,國(guó)內(nèi)方面以百川智能、月之暗面、智譜AI為代表的大模型頭部公司紛紛加入上下文窗口競(jìng)逐賽。到了年尾時(shí)段,王小川似乎又找到了另一種令大模型走向?qū)嵱玫姆椒?,即與自己曾經(jīng)最擅長(zhǎng)的領(lǐng)域——搜索結(jié)合起來(lái)。
“今天大模型領(lǐng)域有三大問(wèn)題要去解決,第一,幻覺(jué)要通過(guò)更大的模型去減少;第二,模型是靜態(tài)的知識(shí)庫(kù),需要升級(jí),之前像OpenAI GPT4停在2019年的數(shù)據(jù),到現(xiàn)在最新更新到2023年4月份,停在那里不動(dòng);第三,今天尤其在垂直領(lǐng)域里面,做商業(yè)落地的時(shí)候,專業(yè)領(lǐng)域知識(shí)不足,每個(gè)企業(yè)都有自己的垂直數(shù)據(jù),還有公開(kāi)的網(wǎng)絡(luò)數(shù)據(jù),如何利用起來(lái)。”12月19日下午的一場(chǎng)交流會(huì)上,百川智能CEO王小川對(duì)界面新聞等媒體提出了對(duì)行業(yè)的預(yù)判,“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。 ”
簡(jiǎn)單說(shuō),王小川的意思是指,搜索增強(qiáng)才是大模型落地應(yīng)用的關(guān)鍵。
當(dāng)日下午,百川智能宣布開(kāi)放基于搜索增強(qiáng)的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo兩款產(chǎn)品。在支持192K超長(zhǎng)上下文窗口的基礎(chǔ)上,百川還發(fā)布了搜索增強(qiáng)知識(shí)庫(kù)的能力,可以讓企業(yè)從私有化部署上把云端知識(shí)上傳,做成一個(gè)外掛系統(tǒng),跟Baichuan2系統(tǒng)做對(duì)接,這樣,每個(gè)企業(yè)就可以定制自己的硬盤(pán),做到即插即用。
百川智能的Baichuan2-192k大模型是10月30日發(fā)布的,其依靠高達(dá)192k的上下文窗口長(zhǎng)度,居全球上下文窗口之首。此番發(fā)布的Baichuan2-Turbo-192K比之前的運(yùn)行速度更快,效率精度更高。據(jù)悉,百川智能通過(guò)長(zhǎng)窗口+搜索增強(qiáng)的方式,在192K長(zhǎng)上下文窗口的基礎(chǔ)上,將大模型能夠獲取的文本規(guī)模提升至5000萬(wàn)tokens(大模型處理文本時(shí)的最小單位),相當(dāng)于1億漢字。
百川智能聯(lián)合創(chuàng)始人洪濤對(duì)記者解釋稱,百川的整個(gè)搜索增強(qiáng)知識(shí)庫(kù)是可看作是一個(gè)外掛的硬盤(pán),而上下文窗口在百川體系里相當(dāng)于內(nèi)存,“Baichuan2-192k可以一次容納35萬(wàn)漢字,這次測(cè)試的知識(shí)庫(kù)相當(dāng)于5000w token,接近1億漢字,整整高兩個(gè)數(shù)量級(jí),可以理解成現(xiàn)在的電腦內(nèi)存是G級(jí)別,硬盤(pán)是T級(jí)別。 ”
目前,用戶可通過(guò)官網(wǎng)入口體驗(yàn)搜索增強(qiáng)和長(zhǎng)窗口加持后的通用智能。從現(xiàn)場(chǎng)演示可以看出,搜索增強(qiáng)的確能有效解決大模型落地應(yīng)用的諸多問(wèn)題。
在具體實(shí)施上,模型是先根據(jù)用戶的提示詞,在海量的文檔中檢索出最相關(guān)的內(nèi)容,再將這些文檔與提示詞一起放到長(zhǎng)窗口中,從而節(jié)省推理費(fèi)用與時(shí)間成本。
在現(xiàn)場(chǎng)演示中,百川智能的知識(shí)庫(kù)可以推斷出用戶輸入背后深層的問(wèn)題,能理解用戶的真實(shí)意圖,能引導(dǎo)模型回答出更準(zhǔn)確的答案。
為精準(zhǔn)理解用戶意圖,百川智能使用自研大語(yǔ)言模型對(duì)用戶意圖理解進(jìn)行微調(diào),已經(jīng)有能力將用戶連續(xù)多輪、口語(yǔ)化的提示詞Prompt信息轉(zhuǎn)換為更符合傳統(tǒng)搜索引擎理解的關(guān)鍵詞或語(yǔ)義結(jié)構(gòu)。
王小川解釋稱,他們是通過(guò)稀疏檢索和向量檢索跟搜索的系統(tǒng)對(duì)接的方式,攻克了一部分技術(shù)難點(diǎn),達(dá)到了語(yǔ)義理解方面的更好效果。首先,百川智能為了讓向量模型實(shí)現(xiàn)更好的檢索效果,融入了稀疏檢索這樣的模型,而這個(gè)“來(lái)自于此前搜索的多年積累”;其次,“用戶需求是口語(yǔ)化、復(fù)雜的上下文相關(guān)的提示詞prompt,而傳統(tǒng)的搜索是基于一個(gè)關(guān)鍵詞Prompt,這兩個(gè)對(duì)齊是今天搜索長(zhǎng)窗口要面臨的問(wèn)題?!?/p>
據(jù)百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬介紹,當(dāng)下,構(gòu)建大模型知識(shí)庫(kù)的主流方法是向量檢索,但其效果過(guò)于依賴訓(xùn)練數(shù)據(jù)的覆蓋,在訓(xùn)練數(shù)據(jù)未覆蓋的領(lǐng)域泛化能力有明顯折扣,本質(zhì)上,向量數(shù)據(jù)庫(kù)的檢索方式性能較低,只適用于規(guī)模較小的企業(yè)團(tuán)隊(duì),而稀疏檢索對(duì)嚴(yán)格的語(yǔ)義、漂移和效率都有更好的表現(xiàn),并且用到的正是搜狗過(guò)去做搜索引擎時(shí)基于符號(hào)的搜索方式。
目前,百川正在深入探索稀疏檢索與向量檢索并行的混合檢索方式,并做到了將目標(biāo)文檔的召回率提升到了95%的成果,大幅領(lǐng)先于市面上絕大多數(shù)開(kāi)源向量模型的80%召回率。
“召回率越高,準(zhǔn)確度越高,這樣搜索系統(tǒng)會(huì)使得大模型工作得更好?!蓖跣〈ū硎?。
此外,百川智能還參考Meta提出的鏈?zhǔn)津?yàn)證(Chain-of-Verification,簡(jiǎn)寫(xiě)CoVe)方法來(lái)減少大語(yǔ)言模型幻覺(jué),目前,百川可以做到將真實(shí)場(chǎng)景的用戶復(fù)雜問(wèn)題拆分成多個(gè)獨(dú)立可并行檢索的子結(jié)構(gòu)問(wèn)題,從而讓大模型針對(duì)每個(gè)子問(wèn)題進(jìn)行定向的知識(shí)庫(kù)搜索,提供更加準(zhǔn)確的答案。
“在今天尤其從國(guó)內(nèi)來(lái)看,搜索增強(qiáng)是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步?!蓖跣〈ㄌ寡浴?/p>
這場(chǎng)發(fā)布會(huì)表面推出了三款產(chǎn)品,實(shí)際上也是百川智能首次對(duì)外介紹公司的To B業(yè)務(wù)進(jìn)展。王小川表示,百川的搜索增強(qiáng)最大意愿并非解決幻覺(jué)問(wèn)題,而是解決可定制化,后者是To B商業(yè)路線的最大需求,“光靠一個(gè)API調(diào)用是不夠的”,因?yàn)椤?/span>企業(yè)有很多私有數(shù)據(jù),如何為模型所用是關(guān)鍵,要通過(guò)大模型+搜索增強(qiáng)來(lái)實(shí)現(xiàn)?!?/p>
重B端的同時(shí),百川智能也并沒(méi)有忽視對(duì)C端的探索,王小川也在現(xiàn)場(chǎng)反復(fù)提到了對(duì)C端產(chǎn)品的看重,還稱正在研發(fā)幾款超級(jí)應(yīng)用。 “C端不會(huì)做小”。他表示,搜索增強(qiáng)對(duì)B、C兩端都很有用,而C端產(chǎn)品有時(shí)需要在公域上去做一做,“一方面跟騰訊有合作,一方面我們自己有傳統(tǒng)的搜索積累,自研的搜索,尤其是在搜索里面怎么跟大模型對(duì)齊,做了非常多工作?!?/p>
王小川透露,多家行業(yè)頭部企業(yè)已與百川智能達(dá)成合作,包括阿里與騰訊,合作的方式主要包括,在深度融合百川智能長(zhǎng)上下文窗口和搜索增強(qiáng)知識(shí)庫(kù)的能力基礎(chǔ)上,對(duì)自身業(yè)務(wù)進(jìn)行智能側(cè)升級(jí)。