文 | 動(dòng)脈網(wǎng)
通過(guò)患者體內(nèi)發(fā)出的聲音“聽(tīng)音辨病”成為現(xiàn)實(shí)又近了一步。
今年初,谷歌(Google)正式宣布生物聲學(xué)基礎(chǔ)模型HeAR,并在近日宣布將其用于肺結(jié)核早篩。同時(shí),今年稍早時(shí)候,Eko Health(簡(jiǎn)稱(chēng)Eko)的人工智能獲得FDA審批,被認(rèn)為是FDA審批的首個(gè)利用聲音輔助醫(yī)生識(shí)別心衰的人工智能。
動(dòng)脈網(wǎng)統(tǒng)計(jì)發(fā)現(xiàn),生物聲音標(biāo)志物近來(lái)進(jìn)展迅速,正迎來(lái)重大突破。
谷歌下場(chǎng),F(xiàn)DA首批,聲學(xué)標(biāo)志物AI進(jìn)展神速
近幾個(gè)月以來(lái),生物聲學(xué)標(biāo)志物這一新興領(lǐng)域頻頻出現(xiàn)在聚光燈下。以該領(lǐng)域最知名的企業(yè)之一Eko為例,在今年迎來(lái)了雙豐收——其突破性人工智能算法在3月被FDA批準(zhǔn),隨后便在6月完成了4100萬(wàn)美元的D輪融資。
另外一家知名企業(yè)TytoCare則在去年8月完成了4900萬(wàn)美元的融資,其人工智能算法則剛剛在7月底獲得了FDA的額外批準(zhǔn),可用于檢測(cè)成人和兩歲以上兒童的肺部濕啰音,以進(jìn)一步檢測(cè)潛在的肺部疾病。
如今,看好這一領(lǐng)域的谷歌也攜大模型入場(chǎng)。
今年初,谷歌發(fā)布了名為HeAR(Health Acoustic Representations)的人工智能模型的研究成果。這個(gè)專(zhuān)業(yè)的生物聲學(xué)基礎(chǔ)模型使用了超過(guò)3億條兩秒長(zhǎng)的音頻數(shù)據(jù)集(其中包含約1億條咳嗽的音頻數(shù)據(jù))進(jìn)行訓(xùn)練,皆是從30億個(gè)公共非版權(quán)YouTube音視頻中提取剪輯而來(lái),希望能夠在生物聲學(xué)標(biāo)志物的醫(yī)療應(yīng)用上取得新的進(jìn)展。
谷歌的研究團(tuán)隊(duì)在6個(gè)數(shù)據(jù)集的13個(gè)健康聲學(xué)事件檢測(cè)任務(wù)、14個(gè)咳嗽推理任務(wù)和6個(gè)肺活量測(cè)定任務(wù)的健康聲學(xué)任務(wù)上對(duì)HeAR進(jìn)行了基準(zhǔn)測(cè)試,證明HeAR能夠在廣泛的任務(wù)范圍中非常準(zhǔn)確地識(shí)別與醫(yī)療相關(guān)的聲音模式,稱(chēng)其為目前功能最為強(qiáng)大的生物聲學(xué)基礎(chǔ)模型之一絕不為過(guò)。
比準(zhǔn)確性更讓人興奮的是其對(duì)拾音設(shè)備極佳的兼容性。研究采用了不同的音頻輸入設(shè)備,從高端智能手機(jī)到入門(mén)智能手機(jī),再到隱藏式麥克風(fēng),最終表明HeAR能夠在不同的拾音設(shè)備上泛化并以有限的數(shù)據(jù)集訓(xùn)練以實(shí)現(xiàn)高性能。
8月底,谷歌宣布了HeAR的第一個(gè)應(yīng)用項(xiàng)目,將與印度企業(yè)Salcit Technologies合作,將HeAR用于肺結(jié)核早篩。
快速發(fā)現(xiàn)結(jié)核病人并提供及時(shí)治療是避免結(jié)核菌傳播的主要途徑,但目前臨床上主流的診斷技術(shù)還比較“原始”,應(yīng)用最廣泛的痰涂片距今已有百年歷史,但這一方法從取樣到出結(jié)果往往至少需要一個(gè)月時(shí)間,且其陽(yáng)性率只有約30%,準(zhǔn)確率、效率和速度均較低。
雖然影像檢查和最新的分子生物學(xué)診斷技術(shù)的準(zhǔn)確性和效率有顯著提高,但受成本和技術(shù)的限制導(dǎo)致其很難在基層醫(yī)院推廣。相比之下,通過(guò)智能手機(jī)對(duì)患者咳嗽聲的采集分析實(shí)現(xiàn)肺結(jié)核早篩為院外提供了一種極具潛力的普適性無(wú)創(chuàng)診斷手段,可使基層獲得比以往強(qiáng)得多的篩查能力。
除了肺結(jié)核,哮喘和慢阻肺也是生物聲學(xué)標(biāo)志物的目標(biāo)。澳大利亞的Resapp Health在該領(lǐng)域有較長(zhǎng)的積累,并在澳大利亞上市。旗下兩款產(chǎn)品之一——SleepCheckRx用于識(shí)別阻塞性睡眠呼吸暫停,已獲FDA批準(zhǔn);另一款產(chǎn)品ResAppDx則可通過(guò)咳嗽和呼吸聲幫助診斷肺部疾病,也已獲CE批準(zhǔn)。
2022年底,藥企巨頭輝瑞以1.79億美元收購(gòu)了Resapp Health。
谷歌的這一大模型主要用于呼吸系統(tǒng)疾病的應(yīng)用,尚處于起步階段。在對(duì)聲音標(biāo)志物的利用上,心臟類(lèi)疾病的進(jìn)展最快,并在今年迎來(lái)了突破。
今年5月,Eko宣布其與數(shù)字聽(tīng)診器配套的人工智能軟件——“Eko low ejection fraction tool (eleft)”獲批,被認(rèn)為是FDA所批準(zhǔn)的第一個(gè)可輔助心衰早期篩查的人工智能算法,是一項(xiàng)重大的醫(yī)學(xué)創(chuàng)新。
借助Eko的這一人工智能,醫(yī)生可以在15秒內(nèi)僅憑數(shù)字聽(tīng)診器采集到的心音檢測(cè)心臟低射血分?jǐn)?shù)(或稱(chēng)心臟低EF值)——這一指標(biāo)反映了心臟的收縮泵血能力。射血分?jǐn)?shù)降低類(lèi)心衰(HFrEF)也是主要的心衰類(lèi)型,根據(jù)統(tǒng)計(jì),在美國(guó)超600萬(wàn)心衰患者中,有一半屬于射血分?jǐn)?shù)降低類(lèi)心衰。
在以往,射血分?jǐn)?shù)檢測(cè)需要應(yīng)用超聲檢測(cè),不僅成本較高也對(duì)操作人員有一定的要求,并不適合基層常規(guī)檢查。患者往往只會(huì)在已有明顯癥狀的時(shí)候才會(huì)做進(jìn)一步檢查,因此錯(cuò)過(guò)早期黃金干預(yù)時(shí)機(jī)的案例屢見(jiàn)不鮮。
Eko的人工智能算法結(jié)合配套數(shù)字聽(tīng)診器可以識(shí)別心臟雜音,有望在最初級(jí)的常規(guī)檢查中盡早將射血分?jǐn)?shù)降低類(lèi)心衰患者篩查出來(lái)。被篩查出來(lái)的患者則可以接受進(jìn)一步的檢查以實(shí)現(xiàn)盡早干預(yù)。
Eko的進(jìn)展并非一蹴而就,這家成立于2013年的公司一直專(zhuān)注于將聲學(xué)標(biāo)志物付諸實(shí)用。早在2015年,其數(shù)字聽(tīng)診器就獲得了FDA審批。不過(guò),當(dāng)時(shí)這款產(chǎn)品目的主要在于遠(yuǎn)程傳遞,并沒(méi)有任何輔助功能,僅僅只是將采集到的心臟聲音通過(guò)藍(lán)牙傳輸?shù)绞謾C(jī),隨后再通過(guò)手機(jī)將音頻數(shù)據(jù)上傳到云端供專(zhuān)家進(jìn)行遠(yuǎn)程會(huì)診。
然而,這種方式可以將患者的音頻數(shù)據(jù)與電子健康記錄(EHR)集成在一起,以實(shí)現(xiàn)無(wú)縫轉(zhuǎn)診、文檔編制和病情實(shí)時(shí)監(jiān)測(cè)。這為Eko之后逐步建立“世界上最大的心音數(shù)據(jù)庫(kù)”奠定了基礎(chǔ)。這些心音數(shù)據(jù)之后被Eko用于訓(xùn)練人工智能,用于識(shí)別心臟病早期癥狀,對(duì)于心臟疾病的早期診斷及治療具有重要意義。
這些努力終于在近年結(jié)出了碩果。2020-2023年間,Eko又獲批了多款醫(yī)療器械,除了升級(jí)后的數(shù)字聽(tīng)診器,更包括可生成心音圖并對(duì)其進(jìn)行分析的人工智能算法。
除了Eko,全球有不少企業(yè)也在這一領(lǐng)域取得了實(shí)質(zhì)性進(jìn)展。比如,日本AMI(Acute Medical Innovation)旗下可輔助識(shí)別瓣膜性心臟?。òㄖ鲃?dòng)脈瓣狹窄)早期征兆的AI聽(tīng)診器就在2022年10月通過(guò)了日本醫(yī)療器械審批。
這一領(lǐng)域的進(jìn)展,有目共睹。
生物聲學(xué)標(biāo)志物潛力巨大,起飛在即
人體器官的物理結(jié)構(gòu)會(huì)隨著生理和病理狀況而改變,從而導(dǎo)致不同疾病患者發(fā)出的聲音以及器官自身發(fā)聲產(chǎn)生特異性變化,這些聲音特征可被作為疾病的“聲音標(biāo)志物”。一個(gè)簡(jiǎn)單的例子莫過(guò)于得了感冒后聲音會(huì)變沙啞,便是這種變化的一種體現(xiàn)。一直致力于研究生物聲學(xué)標(biāo)志物研究的環(huán)宇瑞聲創(chuàng)始人、CEO高政向動(dòng)脈網(wǎng)介紹了生物聲學(xué)標(biāo)志物的原理:“舉例來(lái)說(shuō),肺癌患者因主動(dòng)脈瘤、縱膈腫瘤等壓迫支氣管導(dǎo)致咳嗽金屬音并伴隨聲音嘶啞,肺炎患者則因一側(cè)或雙側(cè)肺泡發(fā)炎引起的感染導(dǎo)致肺泡充滿液體或膿液,而發(fā)出伴隨痰鳴音的咳嗽音。不同疾病的聲學(xué)標(biāo)志物具有獨(dú)特性和差異性,通過(guò)梅爾語(yǔ)譜圖(Mel-spectrogram)進(jìn)行可視化特征鑒別性分析,可以發(fā)現(xiàn)肺癌、肺結(jié)核與健康人之間聲音的顯著差異,從而為疾病診斷提供全新的視角和方法?!?/p>
正因?yàn)榇耍曇魯?shù)據(jù)自古以來(lái)都是醫(yī)學(xué)范疇內(nèi)必要的醫(yī)療數(shù)據(jù)。中醫(yī)自古強(qiáng)調(diào)的“望聞問(wèn)切”中的“聞”就是指聆聽(tīng)患者的聲音和氣息,也在幾千年的實(shí)踐中被證明的確可以對(duì)某些疾病進(jìn)行診斷。
1816年被發(fā)明,并于1819年被公布聽(tīng)診器的出現(xiàn)則代表了醫(yī)學(xué)界對(duì)于生物聲音標(biāo)志物的進(jìn)一步探索。因其成本低廉和小巧便攜的特點(diǎn),聽(tīng)診器得到了普及。在諸如CT等大型醫(yī)療器械出現(xiàn)之前,通過(guò)人體聲音的變化診斷疾病一直都是主要的醫(yī)學(xué)檢查手段。
不過(guò),受限于傳統(tǒng)聽(tīng)診器對(duì)聲音的采集精度限制,以及人類(lèi)聽(tīng)覺(jué)器官的極限,聽(tīng)診器只實(shí)現(xiàn)非常粗淺的判斷,且高度依賴(lài)于醫(yī)生經(jīng)驗(yàn)。盡管如此,它在基層應(yīng)用中的作用仍然不能被小視。
數(shù)字時(shí)代的到來(lái)則為已有兩百多年歷史的聽(tīng)診器帶來(lái)了新生命。數(shù)字聽(tīng)診器利用電子技術(shù)將聲波轉(zhuǎn)換為高精度的數(shù)字化電信號(hào),然后通過(guò)放大和處理,從而獲得清晰度遠(yuǎn)比傳統(tǒng)聽(tīng)診器高得多的聲音。再加上人工智能近年的高速發(fā)展,將生物聲學(xué)標(biāo)志物用于臨床開(kāi)始從以往的“遙不可及”逐漸向“觸手可及”轉(zhuǎn)變。
即便如此,這一進(jìn)程也并不是一條坦途。音頻信號(hào)會(huì)受到環(huán)境噪聲的干擾,說(shuō)話聲、戶(hù)外噪聲等因素都會(huì)影響咳嗽音特征的提取和分析。此前,受制于硬件性能限制,往往難以抓取到高質(zhì)量的聲音信號(hào)。
一個(gè)好消息是傳感器技術(shù)近年的迅速進(jìn)步極大地解決了這一短板。以壓電陶瓷傳感器作為拾音部件的新一代電子聽(tīng)診器相比以往已經(jīng)具有更好的信號(hào)質(zhì)量和更平穩(wěn)的頻響曲線。能夠獲得更加準(zhǔn)確、清晰的心肺音信號(hào),從而準(zhǔn)確獲取用戶(hù)健康數(shù)據(jù)。
更為重要的是,作為更為普及的聲音標(biāo)志物拾取設(shè)備,智能手機(jī)歷經(jīng)多年激烈競(jìng)爭(zhēng)和技術(shù)進(jìn)化,普遍在麥克風(fēng)拾音性能上進(jìn)步巨大,足以滿足基本的音頻信號(hào)采集需要。
“智能手機(jī)對(duì)聲音頻率的要求實(shí)際上已經(jīng)符合臨床需求了。雖然不同的手機(jī)會(huì)帶來(lái)聲音的一些變化,但是通過(guò)領(lǐng)域泛化技術(shù)和損失函數(shù)改進(jìn)可以將這種差異縮小,所以,現(xiàn)在硬件基本不會(huì)產(chǎn)生太大的影響了?!备哒騽?dòng)脈網(wǎng)介紹道。
在解決了硬件的門(mén)檻后,聲學(xué)標(biāo)志物的發(fā)展正在進(jìn)入快車(chē)道。
西天取經(jīng)非坦途,國(guó)內(nèi)進(jìn)展不輸巨頭
硬件的問(wèn)題雖然基本解決,但生物聲學(xué)標(biāo)志物的應(yīng)用并非一條坦途,仍需解決一系列難點(diǎn)。
高政表示,目前生物聲學(xué)標(biāo)志物的應(yīng)用難點(diǎn)主要集中在軟件方面,即人工智能部分。技術(shù)上仍然需要解決人工智能模型有關(guān)患者聲學(xué)標(biāo)志物靶點(diǎn)特征分析、復(fù)雜環(huán)境及跨設(shè)備場(chǎng)景下模型穩(wěn)定性,以及少量精標(biāo)注數(shù)據(jù)下小樣本的學(xué)習(xí)方法等難題。
由于病理因素,呼吸系統(tǒng)疾病患者(如肺結(jié)核)與健康人之間的咳嗽聲音特征差異較為顯著,較易識(shí)別。然而,不同的肺部疾病患者卻可能表現(xiàn)出類(lèi)似的癥狀,其咳嗽音的特征可能相互重疊,難以辨別是哪種具體的疾病。
如何在通用音頻特征基礎(chǔ)上,針對(duì)咳嗽的發(fā)聲特性以及特定疾病(如肺結(jié)核)的病理特性及癥狀表現(xiàn),設(shè)計(jì)精準(zhǔn)的特定疾病患者咳嗽音的靶點(diǎn)特征,從而實(shí)現(xiàn)將特定疾病患者與健康人群以及其他肺部疾病患者的精準(zhǔn)區(qū)分,是一個(gè)仍需解決的難點(diǎn)。
復(fù)雜環(huán)境及跨設(shè)備場(chǎng)景下的模型穩(wěn)定性則是另一個(gè)難點(diǎn)。通常,模型訓(xùn)練所采用的音頻數(shù)據(jù)較為理想,但實(shí)際應(yīng)用中需要識(shí)別的音頻信號(hào)會(huì)受到各種干擾,會(huì)影響咳嗽音特征的提取和分析。此外,不同拾音設(shè)備的性能差異也可能導(dǎo)致咳嗽音頻質(zhì)量和特性發(fā)生變化,將會(huì)影響模型的診斷結(jié)果。
“在模型訓(xùn)練過(guò)程中,如何通過(guò)數(shù)據(jù)增強(qiáng)、噪聲抑制等方法減輕噪聲影響,利用領(lǐng)域泛化技術(shù)消除設(shè)備差異,從而提升診斷模型的魯棒性將是提升生物聲學(xué)標(biāo)志物模型實(shí)際可用性的關(guān)鍵問(wèn)題。” 高政表示。
此外,由于音頻數(shù)據(jù)的采集及標(biāo)注都較為困難,這要求模型在少量精標(biāo)注數(shù)據(jù)的條件下仍然保持較好的檢測(cè)性能。如何解決小樣本數(shù)據(jù)和復(fù)雜模型學(xué)習(xí)之間的矛盾也是一個(gè)課題。
“音頻數(shù)據(jù)的獲取是目前最困難的一環(huán)。在目前的醫(yī)學(xué)檢測(cè)手段中,醫(yī)學(xué)影像數(shù)據(jù)占據(jù)了90%的醫(yī)療信息,從而為模型的訓(xùn)練提供了基礎(chǔ)。但此前沒(méi)有醫(yī)院會(huì)專(zhuān)門(mén)存儲(chǔ)音頻數(shù)據(jù),對(duì)于人工智能的訓(xùn)練來(lái)說(shuō)就成為了無(wú)米之炊。”高政向動(dòng)脈網(wǎng)介紹道。
“高質(zhì)量音頻數(shù)據(jù)集非常缺乏。如果用開(kāi)源數(shù)據(jù)則會(huì)涉及到跨信道的問(wèn)題。以谷歌為例,它的模型訓(xùn)練所用的數(shù)據(jù)集是從Youtube的音視頻數(shù)據(jù)中剪輯而來(lái),尤其是視頻數(shù)據(jù)轉(zhuǎn)成音頻數(shù)據(jù)需要多次解碼,會(huì)造成數(shù)據(jù)丟失。此外,像微信語(yǔ)音也存在類(lèi)似數(shù)據(jù)壓縮的問(wèn)題。我們的模型訓(xùn)練用了2000萬(wàn)條聲學(xué)數(shù)據(jù),最大的優(yōu)勢(shì)就是所有數(shù)據(jù)都是手機(jī)錄制,其信道是完全一致的?!彼a(bǔ)充道。
他表示,高質(zhì)量數(shù)據(jù)的缺乏會(huì)對(duì)相應(yīng)產(chǎn)品的研發(fā)帶來(lái)難題:“統(tǒng)計(jì)來(lái)看,目前已獲批的醫(yī)療AI產(chǎn)品都具有較高的敏感性(90%以上)和特異性(85%左右)。但聲音跟影像不太一樣,個(gè)體之間是有很大差異的。僅僅用這種少量的標(biāo)簽數(shù)據(jù)訓(xùn)練出來(lái)的模型在真實(shí)環(huán)境中使用,要達(dá)到要求的敏感性和特異性并不容易?!?/p>
正因?yàn)榇?,高政認(rèn)為,大模型可以提升這個(gè)模型的穩(wěn)定性和在真實(shí)世界的這種泛化性,將成為未來(lái)聲學(xué)標(biāo)志物能否投入實(shí)用的關(guān)鍵。
這種大模型的趨勢(shì)已經(jīng)開(kāi)始顯現(xiàn)。成立于2016年的Canary Speech主要利用聲音標(biāo)志物檢測(cè)疾病癥狀明顯之前的情緒、壓力和能量水平,但一直沒(méi)有引發(fā)太多的關(guān)注。去年5月,Canary Speech宣布與微軟合作,導(dǎo)入微軟大模型技術(shù)助力研發(fā)。今年6月,這家企業(yè)首次獲得了1300萬(wàn)美元的A輪融資。
在生物聲學(xué)標(biāo)志物的研究上,國(guó)內(nèi)的進(jìn)展也頗為可觀,有關(guān)生物聲學(xué)標(biāo)志物應(yīng)用的媒體報(bào)道也并不鮮見(jiàn)。中國(guó)醫(yī)科大學(xué)附屬第一醫(yī)院就在此前開(kāi)展了基于聲學(xué)生物標(biāo)志物的頸動(dòng)脈狹窄智能診斷技術(shù)研究,目前該項(xiàng)目的頸動(dòng)脈狹窄輔助診斷準(zhǔn)確率已達(dá)到97%。此外,首都醫(yī)科大學(xué)附屬北京胸科醫(yī)院也正開(kāi)展將該聲學(xué)生物標(biāo)志物應(yīng)用于肺癌、肺結(jié)核智能診斷的臨床研究。
寫(xiě)在最后
基于聲學(xué)標(biāo)志物的AI智能診斷技術(shù)有著廣闊的應(yīng)用前景,除了呼吸系統(tǒng)疾病、心腦血管疾病外、神經(jīng)性疾?。ɡ绨柶澓DY、抑郁癥、創(chuàng)傷后應(yīng)激障礙等)以及胎心音等更廣泛的醫(yī)療領(lǐng)域都有其用武之地。
隨著硬件和人工智能等相關(guān)技術(shù)的進(jìn)步,生物聲學(xué)標(biāo)志物的研究進(jìn)展正在加速,相信未來(lái)將會(huì)越來(lái)越多地迎來(lái)相關(guān)領(lǐng)域的突破。動(dòng)脈網(wǎng)也將對(duì)此保持關(guān)注,也歡迎行業(yè)人士不吝賜教。