1.基於大數據挖掘的虛擬醫學研究案例
數據挖掘發展到今天,按照現在的概念應該是“大”數據挖掘的時代。先說幾個相關案例。
1.1虛擬臨床試驗-大數據采集
我們先來看這樣壹個案例。2011年6月,輝瑞制藥有限公司公布了壹項“虛擬”臨床研究,是美國美國食品藥品監督管理局批準的試點項目,首字母縮寫為“REMOTE”。“遠程”項目是美國第壹個病人只需要使用手機和互聯網,而不是反復去醫院的臨床研究。這個項目的目標是確定這種“虛擬”臨床研究是否能產生與傳統臨床研究相同的結果。而傳統的臨床研究需要患者住在醫院附近,定期到醫院或診所進行初次檢查和多次隨訪檢查。如果這個項目是有效的,可能意味著全美國的病人將來都可以參與很多醫學研究。這樣壹來,原本科研項目中沒有得到充分代表的群體將能夠參與進來,數據收集的速度將大大加快,成本也很可能大大降低,參與者退出的概率也將大大降低。
從上面的例子中我們可以看到,利用互聯網可以收集到大量患者的臨床數據,這遠遠大於傳統臨床研究樣本的數量,並且部分臨床數據可能來自更方便的可穿戴健康監測設備。如果進行這樣的研究,在科研設計嚴謹、質量標準得到有效執行、各種誤差得到有效控制的條件下,可以顯著提高科研的效率和成果的可信度。作為輝瑞的首席醫療官,弗雷達?劉易斯-霍爾說:“讓更多不同的人參與研究,可能會推動醫學進步,為更多患者帶來更好的療效。”
1.2虛擬藥物臨床試驗-大數據挖掘
我們來看另壹個案例。1992,抗抑郁藥帕羅西汀(帕羅西汀)獲準上市;從65438到0996,降膽固醇藥物普拉瓦醇正式上市。兩家藥廠的研究證明,每種藥單獨服用都是有效且安全的。然而,沒有人知道患者同時服用兩種藥物是否安全,甚至很少有人想過這個問題。美國斯坦福大學的研究人員利用數據挖掘技術分析了數萬名患者的電子病歷,很快找到了壹個出人意料的答案:同時服用兩種藥物的患者血糖含量更高。這對糖尿病患者的影響很大,血糖過高對他們的健康是嚴重的威脅!科學家還通過分析血糖檢測結果和藥物處方來尋找潛規則。
對於單個醫生來說,同時服用這兩種藥物的患者數量非常有限。雖然可能會有少數糖尿病患者血糖莫名其妙的升高,但醫生很難意識到這是患者同時服用帕羅西汀和普瓦醇引起的。因為這是壹個隱藏在大數據中的隱性規律,如果沒有人專門研究帕羅西汀和普拉固聯合用藥的安全性,那麽單個醫生很難揭示這個規律。然而,臨床藥物有成千上萬種。我們如何研究兩種或三種藥物的任意組合的安全性和有效性?數據挖掘很可能成為探索多種藥物聯合應用的壹種有效、快速、主動的方法!
研究人員不必打電話給病人做臨床試驗,那樣花費太大。電子病歷及其計算機應用的普及為醫學數據挖掘提供了新的機遇。科學家不再局限於傳統的通過召集誌願者進行研究,而是更多地從現實生活的實驗中選擇數據,如大量的日常臨床病例,並開展虛擬研究。這些不是來自計劃項目的實驗數據,保存在很多醫院的病歷裏。
類似於這個案例,數據技術的應用使研究人員能夠發現藥物被批準上市時無法預見的問題,比如壹種藥物可能如何影響特定人群。此外,對病歷進行數據挖掘不僅會給研究帶來好處,還會提高醫療服務系統的效率。
1.3虛擬藥物靶點發現-知識發現
我們再來看看這類研究。通常新藥研發的過程相對較長,投入巨大,風險較高。據統計,新藥研發平均時間長達15年,平均花費超過8億美元。然而,由於藥物療效差、副作用大,很多藥物的研發往往在臨床階段就宣告失敗,造成巨大的經濟損失。作為藥物研發的源頭,藥物靶點的發現和識別對藥物研發的成功率起著至關重要的作用。隨著生物信息學技術的不斷發展,蛋白質組學和化學遺傳學的數據日益增多,應用數據挖掘技術結合傳統的生物實驗技術,可以為新藥靶點的發現提供新的技術手段,為靶點的識別和預測提供新的方法。構建藥物靶點數據庫,利用智能計算技術和數據挖掘技術對現有藥物靶點數據進行深入探索,以發現新的藥物靶點就是這樣壹種研究,我們也稱之為藥物靶點知識發現。
傳統藥物靶點的發現通常是通過大量重復的生化實驗來實現的,不僅成本高、效率低、成功率低,就像盲人摸象,很難把握方向。應用數據挖掘這種自動、主動、高效的探索技術,可以進行虛擬藥物靶點發現,不僅大大加快了藥物靶點發現的進程,而且大大減少了生化實驗的次數和成本,提高了傳統生化實驗的成功率。
2.數據挖掘在虛擬醫學研究中的應用。
在大數據時代,R&D制藥面臨著更多的挑戰和機遇。為了更好地節約R&D成本,提高新藥研究的成功率,開發更具競爭力的新藥,可以應用數據挖掘技術開展虛擬醫學研究和藥物研究。數據挖掘在虛擬醫學研究中的應用可以概括如下。
2.1通過預測建模幫助制藥公司降低R&D成本並提高R&D效率。該模型基於藥物臨床試驗階段前的數據集和臨床早期的數據集,可以盡快預測臨床結果。評估因素包括產品安全性、有效性、潛在副作用和總體測試結果。預測建模可以降低醫藥產品公司的研發成本。通過數據建模和分析預測藥物的臨床結果後,可以暫停對次優藥物的研究或停止對次優藥物的昂貴臨床試驗。
2.2通過挖掘患者數據,評估招募的患者是否符合試驗條件,從而加快臨床試驗進程,提出更有效的臨床試驗設計建議。比如用聚類的方法對患者人群進行聚類,找出年齡、性別、病情、實驗室指標等特征。,並判斷是否滿足測試條件,根據這些特征可以更好地建立對照組。
2.3分析臨床試驗數據和患者病歷,可以確定藥物的更多適應癥,發現副作用。在分析臨床試驗數據和患者記錄後,藥物可以針對其他適應癥進行重新定位或上市。通過相關性分析等方法挖掘實驗數據,可能會發現壹些意想不到的結果,大大提高了數據的利用率。
2.4實時或近實時收集不良反應報告可促進藥物警戒。藥物警戒是上市藥物的安全保障體系,對藥物不良反應進行監測、評價和預防。通過聚類、關聯等大數據挖掘手段,了解藥品不良反應的情況、用藥表現、疾病和不良反應、是否與某種化學成分有關等。比如不良反應癥狀的聚類分析,化學成分與不良反應癥狀的相關性分析等。此外,在某些情況下,臨床試驗已經暗示了壹些情況但沒有足夠的統計數據來證明它們。現在基於臨床試驗大數據的分析可以給出證據。
2.5靶向藥物研發:通過分析大數據集(如基因組數據)開發個性化藥物。本申請考察了遺傳變異、對特定疾病的易感性和對特定藥物的反應之間的關系,然後考慮藥物開發和用藥過程中的個體遺傳變異因素。在許多情況下,患者使用相同的藥物方案但療效不同,部分原因是基因變異。針對同壹疾病的不同患者開發不同的藥物,或者給出不同的用法。
2.6探索藥物的化學成分和藥理作用的結合,激發R&D人員的靈感。比如對於中藥的研發,利用數據挖掘對中藥的方劑和癥狀進行分析研究,探索方劑與癥狀的關系,從功效、歸經、藥性、藥味等方面分析分類特征。
3.虛擬藥物臨床試驗分析系統
現在越來越多的臨床科研和藥物臨床試驗,通過嚴格的條件篩選,從日常臨床工作中產生的大數據中提取數據。就像本文1.1和1.2中提到的案例壹樣,所謂的虛擬藥物臨床試驗,就是從大量的醫院電子病歷中,收集更廣泛的臨床數據,按照設計要求提前篩選嚴格的條件,進行臨床試驗。雖然是虛擬方法而非傳統方法,但這類藥物臨床試驗研究樣本更廣泛,成本低,效率高,研究成果多。虛擬研究的方法完全可以替代壹些傳統的藥物臨床研究,也可以作為壹些傳統藥物臨床研究的前期試驗或探索性研究,使真正的藥物臨床研究工作多、快、好、省。現在我們來看看虛擬藥物臨床試驗分析系統是如何工作的。
3.1虛擬藥物研究的基本思路
1,藥物臨床試驗數據倉庫建設,充分整合和積累臨床數據和藥物應用數據。2.藥物臨床試驗中觀察組和對照組樣本的設計和選擇。3.利用數據挖掘技術探索藥物對疾病治療的效果和副作用。4.利用統計技術推斷和評價藥物臨床試驗的效果。
3.2藥物臨床數據倉庫的建立
有兩種方法可以構建藥物臨床試驗數據倉庫。壹種方式是通過經典藥物臨床試驗設計定制和收集相關數據。傳統的方法主要是紙質文檔記錄,也有專門的數據錄入軟件。這種方法收集的數據是事先設計好的,直接形成藥物臨床試驗的特殊數據,但通常樣本數據不會太大;另壹種是提取、轉換、加載醫院大量的歷史臨床用藥數據,然後充分整合積累的其他臨床數據和藥物申請數據,形成藥物臨床試驗數據源,為生成藥物臨床試驗數據提供支持。這樣的樣本數據可能很大,我們後面要演示的方法就是使用這些數據來篩選和分析“虛擬”樣本。
3.3藥物臨床試驗的樣本設計
根據藥物研究的需要,藥物臨床試驗樣本的設計有多種,如單因素單水平設計、單因素兩水平設計、單因素多水平設計、配對設計、區組設計、重復測量設計等。下面以雙因素區組設計為例介紹樣本篩選。這個例子只是為了演示方法,不考慮嚴格的醫學專業意義。
本研究中的疾病為動脈粥樣硬化性心臟病,治療因素為藥物應用。* * *有三種藥物,分別是倍他樂克、諾和靈、硝酸異山梨酯。街區組的因素是年齡,分為三個年齡組。觀察指標為血鈉。我們的科研設計是基於“三要素四原則”進行數據篩選的。所謂“三要素”,即研究人群、加工因素和觀察對象。所謂四大原則,是指隨機性原則、比較性原則、重復性原則和平衡性原則。根據如下圖1所示的輸入條件,可以篩選出數據集,然後用統計分析工具進行統計分析。
3.4藥物臨床數據挖掘
數據挖掘技術的應用不僅可以提高藥物臨床數據的利用率,還可以探索和發現藥物臨床應用中新的正負效應。利用多種數據挖掘方法分析臨床試驗數據和患者電子數據,可以確定更多的藥物適應癥,發現未知的副作用。在對臨床試驗數據和患者記錄進行挖掘和分析後,藥物可以針對其他適應癥進行重新定位或推廣。通過挖掘藥物試驗數據可能會發現壹些意想不到的結果,大大提高了數據的應用效益。
比如我們用數據挖掘的方法深入研究藥物對實驗室指標的影響。探索和發現藥物在臨床應用中的正負效應,可以通過觀察患者服藥前後的多項醫學特征和生理指標來進行,觀察更客觀的實驗室指標是很多藥物研究的必要設計之壹。以下是倍他樂克在冠心病治療中的應用研究。我們應用數據挖掘的相關技術分析了倍他樂克血藥濃度的變化對患者各項實驗室指標的影響,如下圖2所示,顯示了部分實驗室指標的影響結果。
以上結果需要與臨床醫務人員和藥物研究人員討論。在排除了各種人為因素和商業系統的客觀因素後,我們可以發現之前未知的倍他樂克對患者生理指標的影響,有些可能是醫學上的正影響,有些可能是醫學上的負影響。
3.5統計分析設計
虛擬藥物臨床試驗分析系統的統計分析模塊包括藥物研發中常用的統計分析方法,如T檢驗、方差分析、相關分析、回歸分析、非參數檢驗等。設計思想基於統計思維。首先對數據進行驗證,根據驗證結果選擇統計分析方法。我們以重復測量設計為例來說明。
本研究中的疾病為動脈粥樣硬化性心臟病,治療因素為倍他樂克的用藥,觀察指標為我們從數據挖掘中發現的有影響的血鉀指標。我們可以使用3.3中提供的模塊對篩選後的樣本進行提取和分析,也可以直接從這個模塊中選取需要的數據進行分析。重復測量分析有兩種方法,壹種是霍特林T2檢驗,另壹種是方差分析。該系統提供了這兩種統計測試方法。
下面的圖3顯示了壹些示例數據:
這裏,我們只觀察方差分析方法的輸出,如下圖4所示。
從圖中可以看出,根據P的值,治療因子“倍他樂克”對血鉀有影響,測量時間對血鉀有影響,治療因子和測量時間有交互作用。因此,通過我們的數據挖掘應用所獲得的結果得到了驗證。
4.數據挖掘在中藥研發中的應用
以上,我們重點以西醫的研究和應用為例來說明以數據挖掘為特征的虛擬醫學研究方法。事實上,數據挖掘和虛擬藥物研究也非常適合中醫藥的研究,因為中醫藥本身就是壹門醫學,經過幾千年的不斷探索、積累和驗證,擁有龐大的知識體系和完整的理論體系,但我們仍然需要應用現代知識不斷了解、挖掘、完善和應用,才能更好地與現代科學結合。而數據挖掘是探索和解釋中醫奧秘的有力工具!
國內很多單位也進行了壹些地方性的中醫藥數據挖掘的嘗試。現將這些數據挖掘在中醫研究中的嘗試進行總結如下:1,中醫方劑中的文本數據挖掘;2.“有效成分”的挖掘——在“藥理學”中起關鍵作用的單體或化學成分;3.數據挖掘與中藥方劑配伍規律研究:4.方劑配伍的物質基礎與功效之間關系的數據挖掘,如癥狀與癥候;5.挖掘方劑配伍劑量與方劑效用水平之間的關系(量效關系和模型);6.探索中藥藥性理論與中藥有效成分的關系;7.挖掘方劑中藥物之間的相關性;8.挖掘相似疾病的隱含相似性;9.挖掘和研究同病不同方的異同。10.數據挖掘用於不準確疾病的分類和研究。