文|極新
上世紀興起的基因組、蛋白質(zhì)組學等通過大通量技術(shù)預測疾病發(fā)生發(fā)展獲得了巨大的關(guān)注,對其研究推動了對大數(shù)據(jù)數(shù)理模型的技術(shù)發(fā)展。
越來越多的研究發(fā)現(xiàn),疾病不僅取決于基因及其表達還與表觀修飾蛋白功能等多方面協(xié)同作用,僅對基因組等單一組學進行微觀研究較難獲得突破。醫(yī)療大數(shù)據(jù)的發(fā)展使得微觀基因組基礎(chǔ)大數(shù)據(jù)和宏觀臨床大數(shù)據(jù)結(jié)合,聯(lián)合信息統(tǒng)計分析及人工智能技術(shù),可更加準確地預測疾病的發(fā)生發(fā)展,從而推動預測醫(yī)學的進一步提高。
一個明顯的趨勢是,醫(yī)療大數(shù)據(jù)行業(yè)正在成為下一波醫(yī)療行業(yè)的機會。在這個行業(yè)之中,千億的市場規(guī)模,人工智能技術(shù)的進步都讓人浮想聯(lián)翩。
也誠然,這樣的趨勢也讓無數(shù)投資人和企業(yè)趨之若鶩。
在癌癥領(lǐng)域,我國現(xiàn)存750萬腫瘤患者,人均花費7萬元,按照腫瘤治療滲透率60%計算,那么這就是一個3000多億人民幣的市場。
而如果未來在藥物、手術(shù)、放療都與國際接軌的話,那么這個市場將會變得更廣闊。
國內(nèi)外的醫(yī)療大數(shù)據(jù)
作為大健康醫(yī)療的一個分支,醫(yī)療大數(shù)據(jù)行業(yè)歷史并不算悠久。但時至今日,該領(lǐng)域內(nèi)已經(jīng)發(fā)展出包括臨床大數(shù)據(jù)、健康大數(shù)據(jù)、生物大數(shù)據(jù)、運營大數(shù)據(jù)等多個垂類分支,而每一個分支都在諸如臨床科研、公共衛(wèi)生、行業(yè)治理、管理決策、惠民服務和產(chǎn)業(yè)發(fā)展等方面影響著整個醫(yī)療行業(yè)的變革。
從國際大背景來看,美國在醫(yī)療大數(shù)據(jù)方面仍然領(lǐng)跑全球,截至目前,美國已經(jīng)建成覆蓋本土的12個區(qū)域電子病歷數(shù)據(jù)中心、9個醫(yī)療知識中心、8個醫(yī)學影像與生物信息數(shù)據(jù)中心。
由美國衛(wèi)生與公眾服務部(HHS)管理的聯(lián)邦政府網(wǎng)站healthdata.gov是國家級的健康數(shù)據(jù)開放平臺。通過該網(wǎng)站越來越多的來自于CMS(醫(yī)療保險和醫(yī)療補助服務中心)、CDC(疾病控制中心)、FDA(食品藥品監(jiān)督管理局)、NIH(美國國立衛(wèi)生研究院)等渠道的HHS數(shù)據(jù)庫向社會開放。
數(shù)據(jù)內(nèi)容包括臨床服務質(zhì)量信息、全國衛(wèi)生服務提供者目錄、最新醫(yī)療和科學知識數(shù)據(jù)庫、消費產(chǎn)品數(shù)據(jù)、社區(qū)衛(wèi)生績效信息、政府支出數(shù)據(jù)等。
2014年6月,美國FDA的公共數(shù)據(jù)開放項目openFDA正式上線。openFDA前期開放了2014—2013年間的300萬份藥物不良反應和醫(yī)療過失記錄,以及醫(yī)療器械報告和執(zhí)法報告,并且每年更新發(fā)布新的報告數(shù)據(jù)集。
而在英國和日本,醫(yī)療大數(shù)據(jù)同樣是兩國大力發(fā)展的戰(zhàn)略領(lǐng)域之一。
由于受人口老齡化的影響,日本政府將健康醫(yī)療大數(shù)據(jù)用于控制醫(yī)療費用。受該國國情影響,大數(shù)據(jù)在其中的作用主要是控制醫(yī)療和護理費用。
在中國國內(nèi),醫(yī)療大數(shù)據(jù)行業(yè)起步時間不長,目前只是初步建立了醫(yī)療健康數(shù)據(jù)庫,人口健康信息化初具規(guī)模,在信息技術(shù)和醫(yī)療行業(yè)的產(chǎn)學研方面有了一定成效。
比較重要的是,在生物數(shù)據(jù)庫方面,國家基因庫2016年正式建成,該基因庫集生物資源樣本庫、生物信息數(shù)據(jù)庫和生物資源信息網(wǎng)絡(luò)為一體。而在我國的醫(yī)療大數(shù)據(jù)總體方向上,還和美英日等國有所不同,這一點下文詳表。
國內(nèi)的特點
一國的醫(yī)療大數(shù)據(jù)發(fā)展方向取決于這個國家的稟賦。
正如我們之前系列文章提及的那樣,雖然國外醫(yī)療行業(yè)也有資源分配不均的情況出現(xiàn),但就程度而言,這樣的情況在我國表現(xiàn)的尤為明顯。
也因此,在“健康中國2030”國家戰(zhàn)略背景下,國內(nèi)的醫(yī)療大數(shù)據(jù)行業(yè)發(fā)展方向幾乎不可避免的邁向了智能化。
智慧醫(yī)療最大的好處是可以利用有限的醫(yī)療條件,最大程度發(fā)揮醫(yī)療機構(gòu)的水平和技術(shù)優(yōu)勢。一方面,這樣節(jié)約了成本,另一方面也讓醫(yī)療資源實現(xiàn)了共享和下沉。
在這樣的背景下,醫(yī)療大數(shù)據(jù)在國內(nèi)獲得了飛速的發(fā)展,2013年,我國的醫(yī)療大數(shù)據(jù)行業(yè)市場還僅為331億元,而到了2017年,就已經(jīng)增長至643億元。
但智慧醫(yī)療只是最終的終點,而在這個萬里長城的第一關(guān)則是數(shù)據(jù)。就目前來看,醫(yī)療數(shù)據(jù)面臨著幾大問題:
其一,是醫(yī)院面對企業(yè)型合作方時,他們往往更為謹慎:醫(yī)院對數(shù)據(jù)方面會更看重安全、準確、穩(wěn)定且持續(xù)更新。數(shù)據(jù)處理需要精準且調(diào)用快捷,一旦共享則一定要保證安全。這點說明,絕大多數(shù)醫(yī)院的信息化系統(tǒng)建設(shè)會由外部公司承接,各類信息數(shù)據(jù)均會留在本地服務器上,不會外傳到第三方機構(gòu)或平臺。
這增加了第三方利用醫(yī)院數(shù)據(jù)的難度。
數(shù)據(jù)的來源與利用
在獲取數(shù)據(jù)的過程中,第三方數(shù)據(jù)公司的數(shù)據(jù)來源來自于以下幾種:
其一是病人就醫(yī)過程中產(chǎn)生的信息——即從掛號開始便將個人姓名、年齡、住址、電話等信息,還包括面診過程中病患的身體狀況、醫(yī)療影像等信息也會被錄入數(shù)據(jù)庫,并且,看病結(jié)束以后,費用信息、報銷信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫里面。這就是醫(yī)療大數(shù)據(jù)最基礎(chǔ)、最龐大的原始資源。
其二是臨床醫(yī)療研究和實驗室數(shù)據(jù):即將臨床和實驗室數(shù)據(jù)整合在一起,這種數(shù)據(jù)極大,一張普通CT圖像含有大約150MB的數(shù)據(jù),一個標準的病理圖則接近5GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達數(shù)萬億字節(jié)甚至數(shù)千萬億字節(jié)(PB)之多。
其三是制藥企業(yè)和生命科學數(shù)據(jù):比如上文提到的2016年建造的國家基因庫,以及一些研究院所所研究的生物數(shù)據(jù)庫。
最后是智能穿戴設(shè)備所采集的健康管理數(shù)據(jù),未來,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實現(xiàn)對個人健康數(shù)據(jù)隨時隨地的采集,而帶來的數(shù)據(jù)信息量將更是不可估量的。
收集的數(shù)據(jù)最后去了哪?去了四個地方。
其一,為相關(guān)企業(yè)提供醫(yī)療分析數(shù)據(jù),即為醫(yī)療機構(gòu)提供世界級的數(shù)據(jù)倉庫解決方案;
其二,輸入到了轉(zhuǎn)譯研究中心,即為醫(yī)學研究機構(gòu)以及制藥中心提供新技術(shù)的研究保障;
其三,賦能健康科學網(wǎng)絡(luò),即為制藥公司、資產(chǎn)管理公司以及研究機構(gòu)之間提供安全的數(shù)據(jù)共享;
最后,用于旨在加強與患者聯(lián)系的平臺之中——甲骨文通過收購RightNow以及Eloqua等公司,就是為了加強醫(yī)療機構(gòu)與患者之間的聯(lián)系,而一部分數(shù)據(jù)就是被輸入到了這里。
醫(yī)療大數(shù)據(jù)的創(chuàng)新
目前,人工智能技術(shù)通過算法和軟件,分析復雜的醫(yī)療數(shù)據(jù),達到近似人類認知的目的。因此AI使得計算機算法能夠在沒有直接人為輸入的情況下預估結(jié)論成為可能。
在該領(lǐng)域的創(chuàng)新正在全球范圍內(nèi)發(fā)生,其中,在法國,科學家們正在采用一種被稱為“時間序列分析”的技術(shù),分析過去10年的患者入院記錄。這項研究能夠幫助研究人員發(fā)現(xiàn)患者入院的規(guī)律并利用機器學習,找到能夠預測未來入院規(guī)律的算法。
這項數(shù)據(jù)最終會提供給醫(yī)院的管理人員,幫助他們預測接下來15天中所需要的醫(yī)護人員“陣容”,為患者提供更加“對口”的服務,縮短他們的等待時間,同時也有利于為醫(yī)護人員盡可能合理地安排工作量。
在腦機接口領(lǐng)域,可以幫助恢復基本的人類體驗,例如因神經(jīng)系統(tǒng)疾病和神經(jīng)系統(tǒng)創(chuàng)傷而喪失的說話和溝通功能。
在不使用鍵盤、顯示器或鼠標的情況下,在人類大腦和計算機之間創(chuàng)建直接接口,將大幅提高肌萎縮側(cè)索硬化或中風損傷患者的生活質(zhì)量。
此外,AI還是新一代放射工具的重要組成部分,通過“虛擬活檢”幫助分析整個腫瘤情況,而不再通過一個小小的侵入性活檢樣本。AI在放射醫(yī)療領(lǐng)域的應用能夠利用基于圖像的算法來表現(xiàn)腫瘤的特性。
在藥物研發(fā)方面,依托大數(shù)據(jù),人工智能系統(tǒng)可以快速、準確的挖掘和篩選出適合的藥物。通過計算機模擬,人工智能可以對藥物活性、安全性和副作用進行預測,找出與疾病匹配的最佳藥物。這一技術(shù)將會大大縮短藥物研發(fā)周期、降低新藥成本并且提高新藥的研發(fā)成功率。
例如,當某人被診斷為癌癥時,智能藥物研發(fā)系統(tǒng)會利用病人的正常細胞和腫瘤來將它的模型實例化,并嘗試所有可能的藥物,直到找到一種能殺死癌細胞又不傷害正常細胞的藥物。如果它找不到有效藥物或者有效藥物組合,那么它就會著手研發(fā)一種能治愈癌癥的新藥。如果藥物醫(yī)治了疾病但仍有副作用,系統(tǒng)則會嘗試通過相應調(diào)整擺脫副作用。
目前遇到的困境
在醫(yī)療大數(shù)據(jù)行業(yè)中,講求對“真實世界數(shù)據(jù)”的挖掘和掌握,而其中最重要的核心內(nèi)涵就是基于人群大數(shù)據(jù)的研究,從而推動藥品研發(fā)和應用以及建立治療方案療效客觀評價的新方法。
由于時間地域及硬件條件的不平衡,可能生成海量的醫(yī)療病例錯誤信息。有誤的病歷電子化后,將帶來更多更大的扭曲刪改和誤導性的信息。此外,數(shù)據(jù)的不完整性也是制約醫(yī)療大數(shù)據(jù)發(fā)展的因素,可能對其應用產(chǎn)生錯誤或偏倚,所以,盡快統(tǒng)一各級醫(yī)院病例數(shù)據(jù)模塊,建立標準化的輸出結(jié)構(gòu)或格式,使得數(shù)據(jù)的采集標準化、規(guī)范化,讓數(shù)據(jù)能夠分析使用是當務之急,不同類型的醫(yī)療數(shù)據(jù)資料,采集傳輸時達到統(tǒng)一標準。
所以其大數(shù)據(jù)也必定具備一般的數(shù)據(jù)特性:規(guī)模大、結(jié)構(gòu)多樣、增長快速、價值巨大,但是其作為醫(yī)療領(lǐng)域產(chǎn)生的數(shù)據(jù)也同樣具備醫(yī)療性:多態(tài)性、不完整性、冗余性、時間性、隱私性。
多態(tài)性:醫(yī)療數(shù)據(jù)包含有像化驗產(chǎn)生的純數(shù)據(jù),也會有像體檢產(chǎn)生的圖像數(shù)據(jù)類似心電圖等信號圖譜,醫(yī)生對患者的癥狀描述以及跟進自己經(jīng)驗或者數(shù)據(jù)結(jié)果做出的判斷等文字描述,另外還有像心跳聲,哭聲,咳嗽聲等類似的聲音資料,同時現(xiàn)代醫(yī)院的數(shù)據(jù)中還有各種動畫數(shù)據(jù)(像胎動的影像等)。
不完整性:由于各種原因?qū)е掠泻芏噌t(yī)學數(shù)據(jù)是不完整的,像醫(yī)生的主觀判斷以及文字描述的不完整,患者治療中斷導致的數(shù)據(jù)不完整,患者描述不清導致的數(shù)據(jù)不完整等。
冗余性:醫(yī)療數(shù)據(jù)量巨大,每天會產(chǎn)生大量多余的數(shù)據(jù),這給數(shù)據(jù)分析的篩選帶來了很大困難。
時間性:大多醫(yī)療數(shù)據(jù)都是具有時間性、持續(xù)性的,像心電圖,胎動思維圖均屬于時間維度內(nèi)的數(shù)據(jù)變化圖譜。
隱私性:另外隱私性也是醫(yī)療數(shù)據(jù)的一個重要特性,同時也是現(xiàn)在大部分醫(yī)療數(shù)據(jù)不愿對外開放的一個原因,很多醫(yī)院的臨床數(shù)據(jù)系統(tǒng)都是相對獨立的局域網(wǎng)絡(luò),甚至不會去對外聯(lián)網(wǎng)。
此外,醫(yī)療大數(shù)據(jù)人才也相對缺乏,而且中國醫(yī)療大數(shù)據(jù)應用的主體醫(yī)護衛(wèi)生人員素質(zhì)和能力整體水平也較高。
由于信息化網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)發(fā)展,人們對信息化及數(shù)據(jù)的應用并不陌生,且已初步形成大數(shù)據(jù)研究的專業(yè)化人員隊伍。但是醫(yī)療大數(shù)據(jù)建設(shè)及其研發(fā)有特殊性。首先醫(yī)療數(shù)據(jù)專業(yè)性強,其采集、整合、解讀和應用都需要專業(yè)化衛(wèi)生人員甚至醫(yī)護人員的參與。
然而中國了解醫(yī)療大數(shù)據(jù)及參與醫(yī)療大數(shù)據(jù)建設(shè)的衛(wèi)生人員極其稀缺,此類人才不光需要有醫(yī)學背景,而且需要具有數(shù)理統(tǒng)計和信息分析等知識。
中國已建設(shè)的大數(shù)據(jù)人才多是數(shù)理統(tǒng)計方面的專家,但由于醫(yī)學知識的缺乏,就無法真正深度應用已整合的醫(yī)療數(shù)據(jù)。所以醫(yī)數(shù)醫(yī)理交叉人才的短缺及醫(yī)護衛(wèi)生人員大數(shù)據(jù)相關(guān)知識的缺乏是目前阻擋中國醫(yī)療大數(shù)據(jù)發(fā)展的重大問題。
此外,醫(yī)療大數(shù)據(jù)相關(guān)研究基金和課題的缺乏也是目前衛(wèi)生人員對醫(yī)療大數(shù)據(jù)不了解和不深入研究的原因之一。