導(dǎo)讀:利用大數(shù)據(jù)科研分析平臺(tái),改善臨床研究工作流程,提高試驗(yàn)效率,加速成果轉(zhuǎn)化。以大數(shù)據(jù)科研分析平臺(tái)的建設(shè)為切入點(diǎn),從數(shù)據(jù)采集、數(shù)據(jù)處理及統(tǒng)計(jì)分析等方面,探討其在臨床研究尤其是真實(shí)世界研究中的應(yīng)用效果。大數(shù)據(jù)科研分析平臺(tái)在臨床研究中的多個(gè)環(huán)節(jié)都起到了切實(shí)有效的輔助作用,縮短了試驗(yàn)周期,降低了研究成本。大數(shù)據(jù)科研分析平臺(tái)利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù),深度挖掘臨床研究中的數(shù)據(jù)內(nèi)在價(jià)值,多層次、多角度滿足不同科研需求,有著廣闊的應(yīng)用前景。
隨著循證醫(yī)學(xué)、轉(zhuǎn)化醫(yī)學(xué)以及藥物經(jīng)濟(jì)學(xué)等在我國(guó)的迅速發(fā)展,以及國(guó)家對(duì)臨床醫(yī)學(xué)研究的大力倡導(dǎo),醫(yī)生的科研需求持續(xù)增加。而傳統(tǒng)RCT(randomized controlled trial,隨機(jī)對(duì)照試驗(yàn))試驗(yàn)由于其外部有效性、推廣性有限,無(wú)法評(píng)價(jià)藥品在真實(shí)臨床環(huán)境下的作用等,近年來(lái),基于真實(shí)世界的研究(Real World Study,RWS)正越來(lái)越多地受到醫(yī)療衛(wèi)生領(lǐng)域的關(guān)注。RWS作為一種藥品上市后的再評(píng)價(jià)方法,可以更好地反映出藥品在實(shí)際臨床使用過(guò)程中的有效性、安全性以及經(jīng)濟(jì)性等。但由于其所需樣本量較大,通常涉及海量醫(yī)療數(shù)據(jù),以往依靠人工操作的科研方式不僅耗時(shí)耗力,且極易出現(xiàn)人為錯(cuò)誤,難以保證數(shù)據(jù)質(zhì)量及科研實(shí)施的效率。
與此同時(shí),隨著我國(guó)醫(yī)院信息化水平的日益提高以及信息系統(tǒng)覆蓋率的逐漸增加,各醫(yī)院積累的診療數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),為開(kāi)展基于大數(shù)據(jù)的RWS研究提供了廣泛基礎(chǔ)。因此,如何利用大數(shù)據(jù)及人工智能技術(shù),積極助力RWS的開(kāi)展,提高其質(zhì)量與效率,成為亟待解決的問(wèn)題。
真實(shí)世界研究概念及特點(diǎn)
概念 所謂真實(shí)世界研究(RWS)是指在臨床真實(shí)條件與現(xiàn)實(shí)環(huán)境下,基于較大樣本量(覆蓋具有代表性的更廣大受試者),比較和選擇不同醫(yī)療手段的過(guò)程及其結(jié)局研究;與傳統(tǒng)RCT中對(duì)人群的高度選擇,對(duì)干預(yù)和對(duì)照的嚴(yán)格控制,以及隨訪與實(shí)際存在差異等特征都具有明顯差別。
特點(diǎn)
作用與優(yōu)勢(shì) RWS是近年在國(guó)內(nèi)興起的一種研究理念。因藥品上市后,實(shí)際使用人群會(huì)擴(kuò)大,往往導(dǎo)致實(shí)際藥物療效無(wú)法重復(fù)臨床試驗(yàn)結(jié)果。這種情況下,利用RWS可以提供傳統(tǒng)RCT試驗(yàn)所無(wú)法提供的證據(jù),包括:真實(shí)環(huán)境下干預(yù)措施的療效、長(zhǎng)期用藥的安全性、依從性、疾病負(fù)擔(dān)等,進(jìn)而評(píng)估患者健康狀況、疾病及診療過(guò)程,評(píng)估防治結(jié)果、患者預(yù)后與預(yù)測(cè),以及支持醫(yī)療政策制定等。
數(shù)據(jù)來(lái)源 開(kāi)展RWS研究時(shí),數(shù)據(jù)必須來(lái)源于真實(shí)世界中的患者數(shù)據(jù),反映實(shí)際診療過(guò)程和真實(shí)條件下的患者健康狀況,是一種非實(shí)驗(yàn)設(shè)計(jì)數(shù)據(jù),主要包含醫(yī)院電子病歷、醫(yī)療索賠數(shù)據(jù)庫(kù)、藥品不良事件監(jiān)測(cè)數(shù)據(jù)以及患者隨訪數(shù)據(jù)等。
實(shí)現(xiàn)難點(diǎn) 首先,RWS要求的數(shù)據(jù)量十分龐大,只有在足夠大的樣本量基礎(chǔ)上,才能高效滿足RWS的研究和開(kāi)展;其次,要保障數(shù)據(jù)質(zhì)量,在RWS開(kāi)展過(guò)程中,一旦出現(xiàn)多個(gè)虛假或殘缺不全數(shù)據(jù),將直接影響后續(xù)基于數(shù)據(jù)進(jìn)行的群體性分析,使科研失去價(jià)值;最后,RWS本身對(duì)巨大數(shù)據(jù)量的需求,也對(duì)后續(xù)的數(shù)據(jù)處理及統(tǒng)計(jì)分析提出更高要求,需要強(qiáng)大的采集和分析系統(tǒng)予以支撐。
大數(shù)據(jù)科研分析平臺(tái)功能及技術(shù)特色
大數(shù)據(jù)科研分析平臺(tái)以自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù)為支撐,在數(shù)據(jù)的收集、整合、處理和統(tǒng)計(jì)、分析等方面,都有著巨大的先天優(yōu)勢(shì),這對(duì)開(kāi)展RWS起到強(qiáng)大的輔助作用。
平臺(tái)架構(gòu)設(shè)計(jì) 大數(shù)據(jù)科研分析平臺(tái)的構(gòu)建是以醫(yī)院數(shù)據(jù)中心(HDR)為基礎(chǔ),輔以基因組學(xué)、eCRF表單及隨訪數(shù)據(jù)等,形成全量的專病數(shù)據(jù)庫(kù);在經(jīng)過(guò)數(shù)據(jù)整合、清洗、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)及去隱私化等技術(shù)處理后,形成數(shù)據(jù)集市,包含結(jié)構(gòu)化及后結(jié)構(gòu)化數(shù)據(jù);在此基礎(chǔ)上,通過(guò)語(yǔ)義分析模型、同義詞字典、知識(shí)圖譜等算法,進(jìn)一步挖掘疾病癥狀之間潛在關(guān)聯(lián)等,實(shí)現(xiàn)數(shù)據(jù)的深度應(yīng)用。平臺(tái)架構(gòu)如圖1所示。
圖1 平臺(tái)架構(gòu)示意圖
功能特點(diǎn) 大數(shù)據(jù)科研分析平臺(tái)通過(guò)收集、整合院內(nèi)/外海量醫(yī)療數(shù)據(jù),較好地滿足了RWS對(duì)大樣本量的需求;同時(shí),利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù),將大量多源異構(gòu)的信息融合成標(biāo)準(zhǔn)化、結(jié)構(gòu)化數(shù)據(jù),確保了數(shù)據(jù)質(zhì)量及后續(xù)分析的有效性;在數(shù)據(jù)統(tǒng)計(jì)、分析方面,通過(guò)接入R語(yǔ)言,集合多種統(tǒng)計(jì)分析方法,大大提高了統(tǒng)計(jì)分析的靈活性及科研效率;此外,還可通過(guò)描述性統(tǒng)計(jì)分析,實(shí)現(xiàn)為患者畫(huà)像、為疾病畫(huà)像。
技術(shù)特色
自然語(yǔ)言處理(NLP) RWS研究中所需的數(shù)據(jù)很大一部分存儲(chǔ)在電子病歷系統(tǒng)中。而電子病歷除包含結(jié)構(gòu)化數(shù)據(jù)外,還存在大量自由文本數(shù)據(jù),為后續(xù)的搜索、統(tǒng)計(jì)、分析等帶來(lái)了困難。因此,探索利用自然語(yǔ)言處理技術(shù)來(lái)分析、挖掘電子病歷中的重要內(nèi)容就顯得十分必要。傳統(tǒng)自然語(yǔ)言處理包括詞性標(biāo)注、分詞、句子邊界識(shí)別、句法分析、命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取、共指消解等。通過(guò)對(duì)電子病歷多年的研究分析,從中發(fā)現(xiàn)一些結(jié)構(gòu)規(guī)則,并在此基礎(chǔ)上進(jìn)一步提煉出獨(dú)有的算法和模型,最終形成基于醫(yī)療數(shù)據(jù)模式的文本識(shí)別方法,實(shí)現(xiàn)了病歷自由文本分析由通用的標(biāo)簽分詞到語(yǔ)義分析的轉(zhuǎn)變,為數(shù)據(jù)的分析利用奠定了基礎(chǔ)。
以應(yīng)用提升數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量對(duì)RWS的重要性不言而喻,而保障數(shù)據(jù)質(zhì)量最有效的方法就是在其源頭予以控制,即以應(yīng)用來(lái)驅(qū)動(dòng)數(shù)據(jù)質(zhì)量的提升。具體來(lái)講,就是根據(jù)不同的應(yīng)用場(chǎng)景,從不同視角去建立相應(yīng)的數(shù)據(jù)模型關(guān)系。如:對(duì)具有因果關(guān)聯(lián)結(jié)構(gòu)的病種、病情、治療、療效數(shù)據(jù),事先充分了解其結(jié)構(gòu)內(nèi)容、相關(guān)業(yè)務(wù)邏輯及標(biāo)準(zhǔn),并將這些內(nèi)容、規(guī)則和標(biāo)準(zhǔn)體現(xiàn)到數(shù)據(jù)采集系統(tǒng);在診療過(guò)程中,通過(guò)制定并遵循服務(wù)流程、規(guī)范操作,從規(guī)范的診療行為中獲取可用數(shù)據(jù);利用智能推薦、警示提醒、診療視圖等方式,強(qiáng)化醫(yī)生對(duì)高質(zhì)量數(shù)據(jù)的輸入感受,促進(jìn)數(shù)據(jù)質(zhì)量提升等。
統(tǒng)計(jì)分析靈活 大數(shù)據(jù)科研分析平臺(tái)通過(guò)接入R語(yǔ)言,覆蓋了比較均值分析、回歸分析、相關(guān)分析、定性分析、線性回歸、ROC曲線等多種常用統(tǒng)計(jì)分析算法;另外,還引入了如決策樹(shù)、主成分分析等高級(jí)挖掘統(tǒng)計(jì)算法,以支持復(fù)雜的研究案例。針對(duì)不同的研究,可靈活選擇不同算法,并自動(dòng)生成統(tǒng)計(jì)結(jié)果。同時(shí),平臺(tái)將支持科研數(shù)據(jù)直接導(dǎo)出,供其他統(tǒng)計(jì)分析軟件使用,滿足不同科研需求
大數(shù)據(jù)科研分析平臺(tái)在RWS中的應(yīng)用
如前所述,大數(shù)據(jù)科研分析平臺(tái)在數(shù)據(jù)獲取、數(shù)據(jù)處理及統(tǒng)計(jì)分析等環(huán)節(jié)都具有強(qiáng)大優(yōu)勢(shì),在RWS研究多個(gè)環(huán)節(jié)都能起到切實(shí)有效的輔助作用,從而縮短藥品試驗(yàn)周期,降低研究成本。
滿足數(shù)據(jù)采集需求 利用大數(shù)據(jù)科研分析平臺(tái),可以方便地獲取到醫(yī)院各業(yè)務(wù)系統(tǒng)中的相關(guān)數(shù)據(jù);并可針對(duì)具體科研項(xiàng)目,無(wú)縫接入患者院外隨訪數(shù)據(jù)及CRF表單數(shù)據(jù),快速建立基于真實(shí)世界研究的數(shù)據(jù)庫(kù)。
滿足數(shù)據(jù)處理及質(zhì)量控制需求 通過(guò)大數(shù)據(jù)科研分析平臺(tái)的自然語(yǔ)言處理等技術(shù),可以將海量數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化及后結(jié)構(gòu)化處理,并形成完善的數(shù)據(jù)網(wǎng)絡(luò),提高科研過(guò)程中對(duì)數(shù)據(jù)搜索的便利性及時(shí)效性。此外,通過(guò)在應(yīng)用層面對(duì)不同業(yè)務(wù)邏輯及標(biāo)準(zhǔn)、規(guī)則的設(shè)定,強(qiáng)化對(duì)數(shù)據(jù)產(chǎn)出端的質(zhì)量控制,可以有效提升數(shù)據(jù)的準(zhǔn)確性、及時(shí)性、完整性和一致性,確保RWS過(guò)程中數(shù)據(jù)的高關(guān)聯(lián)度和高可靠性。
滿足數(shù)據(jù)統(tǒng)計(jì)及分析需求 大數(shù)據(jù)科研平臺(tái)通過(guò)將R語(yǔ)言與常用醫(yī)學(xué)統(tǒng)計(jì)模型集成在一起,可以更加方便地為科研人員提供針對(duì)不同需求的靈活選擇;且操作簡(jiǎn)便,通過(guò)“檢索或?qū)敕治鰯?shù)據(jù)→選擇變量和參數(shù)→查看并導(dǎo)出結(jié)果”三個(gè)步驟,即可快速完成科研統(tǒng)計(jì)、生成分析結(jié)果。此外,還可以借助大數(shù)據(jù)語(yǔ)義分析和知識(shí)圖譜等技術(shù),針對(duì)某種疾病做描述性統(tǒng)計(jì)分析,實(shí)現(xiàn)為患者畫(huà)像或?yàn)榧膊‘?huà)像。
綜上所述,大數(shù)據(jù)科研分析平臺(tái)利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù),在RWS開(kāi)展過(guò)程中可以幫助其快速完成對(duì)海量醫(yī)療數(shù)據(jù)的收集、整合、處理及統(tǒng)計(jì)、分析等,深度挖掘數(shù)據(jù)內(nèi)在價(jià)值,實(shí)現(xiàn)真實(shí)世界研究在新藥開(kāi)發(fā)、藥物經(jīng)濟(jì)學(xué)、醫(yī)??刭M(fèi)、適應(yīng)癥/禁忌癥評(píng)價(jià)、臨床指導(dǎo)等多層次、多角度的需求,具有廣闊的應(yīng)用前景。
文章來(lái)源:《中國(guó)數(shù)字醫(yī)學(xué)》雜志2019年第2期,作者及單位:金昌曉 計(jì)虹 席韓旭 張晨 甘偉 陳聯(lián)忠,北京大學(xué)第三醫(yī)院 北京嘉和美康信息技術(shù)有限公司。
返回