文 | 動脈網(wǎng)
從2024年眾多新品面世的熱鬧程度來看,大模型的激烈競爭,已經(jīng)卷到了中醫(yī)藥。無論是科技巨頭、中醫(yī)創(chuàng)新企業(yè),還是研究機構(gòu),甚至是地方政府,均已加入這場中醫(yī)藥大模型混戰(zhàn)。
貼上大模型標(biāo)簽并不難,但只有中醫(yī)藥的效率和邊界真正得到質(zhì)的提升后,大模型才有更重要的實際價值和意義。
長久以來,中醫(yī)藥一直是毀譽參半的對象。中醫(yī)藥與大模型是“天作之合”的好評背后,“計算機算命”的質(zhì)疑聲也未斷絕。中醫(yī)藥和大模型的結(jié)合,是蹭熱度還是真需求?動脈網(wǎng)與多家率先開展中醫(yī)藥大模型研究的企業(yè)、研究機構(gòu)聊了聊,供行業(yè)參考。
本文主要觀點如下:
1、不止于賽博中醫(yī),藥物研發(fā)、臨床輔助診斷已有成效
2、深度學(xué)習(xí)和知識圖譜是兩條技術(shù)路徑,1+1才能大于2
3、數(shù)據(jù)是基礎(chǔ),六大要素組成高質(zhì)量的中醫(yī)診療語料庫
4、交叉人才、用戶接受度、知識產(chǎn)權(quán)等難點尚待解決
5、可用、有利、經(jīng)驗證且基于真實場景的,才是中醫(yī)大模型
“中醫(yī)藥大模型,已經(jīng)多到老祖宗的名字都不夠用了”
仿佛有一道閘門在這兩年被打開,大批中醫(yī)藥大模型爭先涌出。據(jù)不完全統(tǒng)計,2023年以來,已有數(shù)十個中醫(yī)藥相關(guān)的大模型相繼亮相。
部分中醫(yī)藥大模型
諸多行業(yè)文章對當(dāng)前的中醫(yī)藥大模型進行了整理羅列,本文不再贅述。需要注意的是,當(dāng)前的中醫(yī)藥大模型都有多個應(yīng)用場景,上述表格僅作簡單分類,不代表該大模型僅屬于這一種應(yīng)用場景或一種功能。
華為、百度、阿里、訊飛等科技大廠,基于算力算法優(yōu)勢,積極聯(lián)合中醫(yī)藥在內(nèi)的垂直領(lǐng)域開展垂直行業(yè)大模型;清華大學(xué)、中國中醫(yī)科學(xué)院等科研院所也在積極通過大模型等先進技術(shù)進行中醫(yī)藥傳承與創(chuàng)新。
當(dāng)然,中醫(yī)藥大模型賽道肯定不乏中醫(yī)藥產(chǎn)業(yè)界的“土著”,如云南白藥、華潤江中、太極集團、天士力等知名中藥企業(yè),以及大經(jīng)中醫(yī)、中醫(yī)聰寶這類專研中醫(yī)AI多年的創(chuàng)新企業(yè)。
此外,在一些具有中醫(yī)藥產(chǎn)業(yè)基礎(chǔ)的地區(qū),相關(guān)政府也在著力發(fā)展中醫(yī)藥大模型產(chǎn)業(yè)。6月,亳州市宣布和華為公司合作,正式建設(shè)中醫(yī)藥產(chǎn)業(yè)大模型-華佗中醫(yī)藥大模型;同期,中醫(yī)藥橫琴大模型在橫琴粵澳深度合作區(qū)正式啟動;早些時候,由天津多個政產(chǎn)學(xué)研醫(yī)單位聯(lián)合開發(fā)的首個面向中醫(yī)針灸領(lǐng)域的“天河·靈樞”、“海河·岐伯”大模型分別發(fā)布和開放內(nèi)測。
大模型之多,頗有“百花齊放,百家爭鳴”之感。為了迅速將產(chǎn)品的技術(shù)基礎(chǔ)和功能特點傳遞給用戶,與用戶建立情感鏈接上的獨特辨識度,國產(chǎn)大模型在命名上也花費了一番功夫,從神話人物到圣賢百家,甚至是道家術(shù)語、動植物名稱,各類名字不斷出現(xiàn),上演了一場大模型的“封神榜”。
中醫(yī)藥大模型也紛紛請出扁鵲、華佗、神農(nóng)、黃帝、岐伯、張仲景等開宗立派的大人物,或使用本草、靈樞、岐黃、軒岐等中醫(yī)藥高頻詞,來寄托中醫(yī)藥傳承與創(chuàng)新的精神和使命。
命名的儀式感,一定程度反映出行業(yè)對大模型未來發(fā)展?jié)摿Φ钠诖?。但大模型歸根結(jié)底是關(guān)于生產(chǎn)力的革命,終究還是要回歸真實場景,解決實際問題。這是技術(shù)的最終歸宿,也是大模型良性發(fā)展的開端。
不止于賽博中醫(yī),藥物研發(fā)、臨床輔助診斷已有成效
出現(xiàn)在很多醫(yī)院或體檢中心的AI中醫(yī)機器人,因如老中醫(yī)一般把脈、開方,形成反差感,而被戲稱為“賽博中醫(yī)”。這其中或有調(diào)侃成分,但也確實讓更多人開始關(guān)注到了傳統(tǒng)中醫(yī)藥的與時俱進。
多位采訪對象表示,現(xiàn)階段的中醫(yī)藥大模型應(yīng)用場景主要包括新藥研發(fā)、問診導(dǎo)診、輔助診療和康復(fù)健康管理。
中醫(yī)聰寶董事長顧高生認為,中醫(yī)藥+大模型是傳統(tǒng)中醫(yī)藥服務(wù)的一場革命,面向康養(yǎng)機構(gòu)、藥店診所等偏消費場景的大健康養(yǎng)生服務(wù)是中醫(yī)藥大模型目前最有希望落地的場景,當(dāng)然2C場景更有市場,“這類場景語言交互需求強,和大模型在語義理解、生成交互的技術(shù)優(yōu)勢是比較契合的。在輔助診療場景,則考驗大模型對多模態(tài)數(shù)據(jù)訓(xùn)練、處理和圖像識別上的能力,也有非常好的應(yīng)用前景,如,聰寶基于深度學(xué)習(xí)技術(shù)的國醫(yī)大師專病機器人,加入了大模型技術(shù)后,就實現(xiàn)了系統(tǒng)升級,預(yù)訓(xùn)練模型減少了20%的訓(xùn)練時間,處方相似度提升了10%?!?/p>
中醫(yī)聰寶研發(fā)的“聰寶素問”大模型,可對用戶提出的中醫(yī)藥問題做到“有問必答”,并通過“圍欄”技術(shù)保障養(yǎng)生保健應(yīng)用所必須的科學(xué)與嚴(yán)謹。需要注意的是,“聰寶素問”大模型已經(jīng)升級到了3.0版本,如杭州市衛(wèi)健委“智能中醫(yī)分診服務(wù)”通過機器人問答來匹配“適合你的中醫(yī)”,系統(tǒng)上線“浙里辦”;應(yīng)用場景更多元化,可根據(jù)多模數(shù)據(jù)和專家經(jīng)驗數(shù)據(jù),為醫(yī)療機構(gòu)、醫(yī)生、保險公司、醫(yī)藥企業(yè)賦能。
中醫(yī)藥大模型對新藥研發(fā)、中藥產(chǎn)業(yè)發(fā)展的助力,也吸引了大批中藥企業(yè)的注意力。
如天士力“數(shù)智本草”大模型能夠幫助研究者完成中醫(yī)藥理論證據(jù)的挖掘和總結(jié),也可結(jié)合相應(yīng)算法快捷實現(xiàn)藥材與復(fù)方的篩選和優(yōu)化。根據(jù)“天士力研究院”信息,天士力利用大模型中天然產(chǎn)物分子大模型,完成糖尿病腎病及肺纖維化的天然產(chǎn)物分子篩選,通過高效虛擬篩選,精準(zhǔn)預(yù)測和優(yōu)化候選分子的藥效和安全性,從而加速中藥組分新藥的發(fā)現(xiàn)和開發(fā)過程。
此外,由國藥太極作為智庫聯(lián)合開發(fā)的“本草智庫·中藥大模型”,收錄了覆蓋中藥全產(chǎn)業(yè)鏈的2000余萬條中藥研究底層核心數(shù)據(jù),讓中藥材有了“基因身份證”,實現(xiàn)中藥研究底層核心數(shù)據(jù)與中藥全產(chǎn)業(yè)鏈關(guān)鍵環(huán)節(jié)的有機結(jié)合,對中藥材種植、質(zhì)量控制、藥物研發(fā)等中藥全產(chǎn)業(yè)鏈關(guān)鍵環(huán)節(jié)有中藥價值。
中醫(yī)輔助診療是大多數(shù)中醫(yī)藥大模型都希望實現(xiàn)的能力,但各廠商的研發(fā)路徑卻不盡相同。大經(jīng)中醫(yī)創(chuàng)始人、CEO李文友說到,中醫(yī)診療數(shù)字化和智能化一直是中醫(yī)現(xiàn)代化發(fā)展的重要方向之一,按照技術(shù)演進路徑,已經(jīng)歷了符號邏輯、機器學(xué)習(xí)和深度學(xué)習(xí)三大階段,隨著技術(shù)的進步,模型規(guī)模的擴大,使得模型出現(xiàn)了“知識涌現(xiàn)”的能力。至此,人工智能進入“生成式AI”新時代。可以說,中醫(yī)藥大模型是部分中醫(yī)智能輔助診療系統(tǒng)在大模型技術(shù)作用下的迭代產(chǎn)物。
2023年8月,大經(jīng)中醫(yī)發(fā)布的“岐黃問道”大模型便是基于其完備的知識圖譜體系生長起來的。大經(jīng)中醫(yī)基于過往八年的高質(zhì)量中醫(yī)數(shù)據(jù)和數(shù)智中醫(yī)計算積累,構(gòu)建了完備的中醫(yī)知識圖譜體系,并將其應(yīng)用在中醫(yī)CDSS系統(tǒng)中。而知識圖譜轉(zhuǎn)化所形成的1100多萬條中醫(yī)自然語義數(shù)據(jù)也成為了大經(jīng)中醫(yī)“岐黃問道”大模型的訓(xùn)練數(shù)據(jù)。
大經(jīng)中醫(yī)副總經(jīng)理、研發(fā)總負責(zé)人趙靜表示,知識圖譜和大模型深度學(xué)習(xí)雖然是兩條技術(shù)路徑,但可以多技術(shù)融合發(fā)展?!笆紫龋覀円弥R圖譜在可解釋性、可信性、知識標(biāo)準(zhǔn)化方面的優(yōu)勢,增強我們大模型從預(yù)訓(xùn)練到應(yīng)用的全生命周期各環(huán)節(jié),提升大模型的訓(xùn)練效果和推理結(jié)果的可用性;反之亦然,基于大模型在語義理解、內(nèi)容生成的技術(shù)優(yōu)勢,來增強知識圖譜從構(gòu)建到應(yīng)用的全生命周期各環(huán)節(jié),提升知識圖譜生成的效率和質(zhì)量?!?/p>
“沒有場景,形成不了后面的數(shù)據(jù)反饋,中醫(yī)藥大模型就是一個空中樓閣。”多位受訪者表示,要把大模型放到具體場景中應(yīng)用,在使用中實現(xiàn)優(yōu)化。
數(shù)據(jù)是基礎(chǔ),六大要素組成高質(zhì)量中醫(yī)數(shù)據(jù)
一個行業(yè)共識是,在中醫(yī)藥大模型的訓(xùn)練中,如何收集和整理高質(zhì)量的中醫(yī)數(shù)據(jù),是中醫(yī)大模型開發(fā)面臨的首要問題。在此,我們要先明確,何為高質(zhì)量的中醫(yī)藥數(shù)據(jù)?
大經(jīng)中醫(yī)李文友介紹,中醫(yī)知識鏈包括了人、病(疾?。Y(癥狀、體征)、證(病理性概括)、法(治療方法)、方(醫(yī)方)、藥物六大要素。以上六類要素完整且要素之間的關(guān)系是真實的,即為高質(zhì)量數(shù)據(jù)。
首先,中醫(yī)典籍、經(jīng)典名方、專業(yè)文獻這類靜態(tài)數(shù)據(jù),經(jīng)過專業(yè)的辨?zhèn)未嬲?,可作為高質(zhì)量數(shù)據(jù)的重要來源之一。在前述表格中,我們也能看到這類數(shù)據(jù)是很多大模型的數(shù)據(jù)來源。
例如“海河·岐伯”大模型便是以《黃帝內(nèi)經(jīng)》等中醫(yī)典籍為核心,抽取四庫全書醫(yī)家類資料、傳統(tǒng)中醫(yī)文獻與全文中醫(yī)藥械資源的文本素材、以中醫(yī)藥領(lǐng)域的基本概念、知識、理論、基本、藥物、方劑為節(jié)點,以節(jié)點之間的關(guān)系為邊,形成的完整知識圖譜。天士力的“數(shù)智本草”大模型也是吸納了中藥古籍、方劑、中成藥配方,以及文獻摘要、臨床方案和中藥專利、藥典政策指南等數(shù)據(jù),整體參數(shù)量達到了380億。
中醫(yī)藥大模型的高質(zhì)量數(shù)據(jù)另一個重要來源,是每天在真實診療過程中產(chǎn)生的臨床數(shù)據(jù),如脈象、舌象、經(jīng)絡(luò)、穴位數(shù)據(jù),以及中醫(yī)專家的醫(yī)案數(shù)據(jù)、診療經(jīng)驗等。
但這類數(shù)據(jù)在價值挖掘上存在兩個難點,一是臨床數(shù)據(jù)記錄不完整或表述不一,二是一些臨床數(shù)據(jù)沉淀在各類醫(yī)療機構(gòu)、名老中醫(yī)工作室中,隱秘性較強。
具體來看,中醫(yī)類電子病歷系統(tǒng),除采集西醫(yī)規(guī)范中的內(nèi)容外,還需要記錄患者的脈診、舌診、面診等諸多內(nèi)容。但中醫(yī)電子病歷模板目前尚無全國統(tǒng)一模板,標(biāo)準(zhǔn)不一,以及中醫(yī)生診療記錄習(xí)慣不同、專業(yè)術(shù)語用詞不規(guī)范等因素,都會不同程度地影響中醫(yī)病歷質(zhì)量及大模型訓(xùn)練質(zhì)量。
此外,中醫(yī)藥學(xué)術(shù)流派林立,各有其獨特的診療方法論,中醫(yī)歷來也有“道不傳非人、法不傳六耳”的傳統(tǒng)。這都導(dǎo)致中醫(yī)公開數(shù)據(jù)的質(zhì)量普遍較低,高質(zhì)量數(shù)據(jù)則非常私密。
在數(shù)據(jù)收集部分,中醫(yī)聰寶通過兩條路徑來收集中醫(yī)臨床數(shù)據(jù),一方面,中醫(yī)聰寶基于可規(guī)?;⒖蓮?fù)制的中醫(yī)智能醫(yī)共體/城市中醫(yī)大腦,匯聚了全國18個省市的超5000家醫(yī)療機構(gòu),每天系統(tǒng)中產(chǎn)生的“活數(shù)據(jù)”都可經(jīng)脫敏后使用;另一方面,中醫(yī)聰寶自主研發(fā)智能中醫(yī)傳承創(chuàng)新平臺,幫助全國不同流派的名老中醫(yī)進行經(jīng)驗落地。
數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到模型表現(xiàn)的優(yōu)劣。在數(shù)據(jù)收集后,開發(fā)單位還要設(shè)計數(shù)據(jù)清洗和預(yù)處理策略和規(guī)則,采用文本處理和強化學(xué)習(xí)等技術(shù),進行自動數(shù)據(jù)預(yù)處理,同時結(jié)合人工審查,剔除錯誤和不準(zhǔn)確的數(shù)據(jù),實現(xiàn)人機協(xié)同的大規(guī)模中醫(yī)診療預(yù)料準(zhǔn)備,建立高質(zhì)量的中醫(yī)診療語料庫。比如大經(jīng)中醫(yī)就花費了八年時間,打造了全國極少數(shù)的中醫(yī)癥狀/體征的術(shù)語規(guī)范化詞典。
在大經(jīng)中醫(yī)的岐黃問道大模型中,中醫(yī)專家還會參與大模型的調(diào)整反饋工作,讓大模型增加對中醫(yī)知識和中醫(yī)思維的理解,確保中醫(yī)大模型回答的準(zhǔn)確性和一致性。大模型的“基礎(chǔ)能力”疊加上中醫(yī)的“行業(yè)能力”后,中醫(yī)大模型就具備了中醫(yī)垂直領(lǐng)域的提煉、分類、模仿、推測、識別等能力,并通過與中醫(yī)行業(yè)多種業(yè)務(wù)場景結(jié)合,成為可落地、可使用的中醫(yī)大模型。
經(jīng)觀察,現(xiàn)有中醫(yī)大模型的數(shù)據(jù)體量最高為百億級,雖然和通用大模型動輒以兆計算的數(shù)據(jù)規(guī)模相比,前者規(guī)模不大,但這些數(shù)據(jù)皆是經(jīng)過清洗的高質(zhì)量數(shù)據(jù),其一條高質(zhì)量數(shù)據(jù)的價值或比上百條互聯(lián)網(wǎng)泛內(nèi)容的數(shù)據(jù)價值要高得多。
交叉人才、用戶接受度、知識產(chǎn)權(quán)等難點尚待解決
中醫(yī)藥大模型,除了需要源源不斷供給的高質(zhì)量中醫(yī)藥數(shù)據(jù),還需要了解行業(yè)Know-how,即對中醫(yī)藥產(chǎn)業(yè)擁有特有的知識,對理解力要求也更高。
大經(jīng)中醫(yī)李文友表示,中醫(yī)藥大模型更多的是對古老中醫(yī)智慧的數(shù)智化傳承,在研發(fā)過程中要注意中醫(yī)思維邏輯的一致性和合理性、個性化治療方案的精準(zhǔn)度和有效性,以及大模型需要具備持續(xù)學(xué)習(xí)和自我迭代的能力,來適應(yīng)不斷變化的醫(yī)學(xué)知識和臨床需求。同時,在研發(fā)團隊建設(shè)方面,還要注重研發(fā)團隊的多元化和跨學(xué)科融合,以促進大模型的創(chuàng)新和發(fā)展。
除了找到真實應(yīng)用場景和大量高質(zhì)量數(shù)據(jù)外,北京大學(xué)重慶大數(shù)據(jù)研究院智慧中西醫(yī)研究中心副主任、智醫(yī)存內(nèi)CEO黃新霆認為,用戶接受度也是一個需要值得注意的維度,“提高醫(yī)生、患者的接受度,不僅要有好的診療效果,而且不能給用戶帶來使用上的負擔(dān)?!?/p>
中醫(yī)聰寶顧高生提到,當(dāng)前中國在算法算力被“卡脖子”、運營成本高昂、收益分配等問題。顧高生提到,中醫(yī)素有門派之分,如何對其進行合規(guī)合法合理的產(chǎn)業(yè)化,還需要完善知識產(chǎn)權(quán)相關(guān)的政策措施。
此外,受訪者們還提到了兼具中醫(yī)知識底蘊和AI技術(shù)能力的交叉人才培養(yǎng)、監(jiān)管部門數(shù)據(jù)權(quán)屬界定等問題。
可使用、對用戶有利、經(jīng)過驗證且基于真實應(yīng)用場景的,才是中醫(yī)大模型
最后,讓我們直面中醫(yī)和大模型結(jié)合過程遇到的質(zhì)疑。
智醫(yī)存內(nèi)黃新霆表示,當(dāng)前行業(yè)缺乏對中醫(yī)藥大模型的標(biāo)準(zhǔn)界定,“目前國內(nèi)發(fā)布的大模型很多,但要符合中醫(yī)藥大模型的特點卻很難。可使用、對用戶有利、經(jīng)過驗證,且基于真實應(yīng)用場景,我認為是中醫(yī)大模型需要具備的幾個重要特點?!?/p>
中醫(yī)聰寶顧高生認為,“療效好”是中醫(yī)大模型的最終評價標(biāo)準(zhǔn)。同時,基于大模型的中醫(yī)信息化系統(tǒng),可以和患者產(chǎn)生更高效率更多維度的交互,這也是新質(zhì)生產(chǎn)力的表現(xiàn)。
在大經(jīng)中醫(yī)李文友看來,中醫(yī)和人工智能有很大的同質(zhì)性。中醫(yī)這門學(xué)科存在很多的爭論,其原因在于很多對中醫(yī)不了解的人覺得中醫(yī)太模糊、無法確定。但其實,如果我們將中醫(yī)理解成一個“黑箱”系統(tǒng),輸入患者的癥狀和體征,得到一個有效的方劑,就會發(fā)現(xiàn)這一過程和AI系統(tǒng)的輸入數(shù)據(jù)、輸出結(jié)果類似。
大經(jīng)中醫(yī)趙靜補充到,中醫(yī)是一門歷史悠久、富含哲理的醫(yī)學(xué)體系。核心在于辨證論治、因人而異的治療原則。中醫(yī)這種高度個性化和綜合性的診療思路,和大模型技術(shù)在處理復(fù)雜關(guān)聯(lián)性、模式識別和深度學(xué)習(xí)的能力是相輔相成的。
總的來說,中醫(yī)拒絕不了大模型,這也是時代發(fā)展的必然趨勢。大模型以其強大的數(shù)據(jù)處理和分析能力,為中醫(yī)傳承與創(chuàng)新注入了新的活力,然而我們也要清醒認識到,大模型只是工具,中醫(yī)的望聞問切、整體觀念和辨證論治等獨特觀念,依然是中醫(yī)藥的靈魂所在。