臨床預后評估在醫(yī)學研究與臨床實踐中占據(jù)舉足輕重的地位。預后生物標志物指在特定人群中表明未來臨床事件(如疾病發(fā)生、進展等)發(fā)生的可能性的生化指標,對患者的治療方案選擇、疾病進程管理、治療效果評估起到至關重要的作用。利用臨床隊列樣本數(shù)據(jù)與患者信息尋找有價值的預后生物標志物,尤其是基于蛋白質(zhì)組數(shù)據(jù)進行標志物發(fā)現(xiàn),一直是疾病研究的一大熱點。
疾病生物標志物還有哪些類型?為什么選擇蛋白質(zhì)組?樣本類型如何選擇?數(shù)據(jù)預處理包括哪些內(nèi)容?點擊這里帶您回顧~【>>>點擊回顧疾病生物標志物干貨】
下面就讓我們一起來看看基于機器學習的預后生物標志物篩選是如何實現(xiàn)的吧~
預后生物標志物的發(fā)現(xiàn)需要以患者樣本(不區(qū)分組別,一般為疾病組織或血液)及患者預后信息(生存時間、復發(fā)時間等)為基礎,因此除了患者樣本的收集,還要密切關注對患者的隨訪,收集患者的預后信息,并確保入組患者的預后存在一定差異。
此外,影響患者預后的因素眾多,包括疾病分期、腫瘤大小等疾病因素,治療方案、治療時間等治療因素,性別、年齡、體重等生物學因素,以及抽煙、飲酒、職業(yè)暴露等環(huán)境因素。這些因素都將對預后標志物的篩選產(chǎn)生干擾,因而應盡量在患者信息收集時同步收集,并在預后標志物篩選過程中考慮將臨床信息納入為區(qū)分患者預后的風險因素。
Cox比例風險模型是一種用于分析單個或多個因素(如蛋白質(zhì)表達水平、年齡、性別、疾病階段等)如何影響一個事件(如疾病的復發(fā)、患者的死亡等)發(fā)生的時間的半?yún)?shù)模型,又稱Cox回歸。由于該模型能夠同時考慮多個因素,尤其適用于醫(yī)學研究面臨的復雜場景。具體而言,Cox模型專注于分析事件發(fā)生時間的風險比例,能夠衡量在任一特定時刻發(fā)生某事件的可能性與在其它時刻該事件的可能性相比是如何變化的。
預后生物標志物篩選的第一步,便是使用經(jīng)過預處理的患者樣本蛋白質(zhì)組學數(shù)據(jù)與對應的患者生存信息建立單因素Cox風險比例模型,一般以P-value<0.01為條件篩選出表達水平與患者預后相關的蛋白質(zhì)。
LASSO回歸模型是一種線性回歸的改進算法,該算法在普通線性回歸的基礎上添加了一個懲罰項——L1懲罰,從而實現(xiàn)對模型有重要影響的變量的選擇。具體而言,L1懲罰能夠逐步縮小對結果影響較小的因素的權重,直至權重為零時即將該因素剔除,最終目標是最小化損失函數(shù)和L1范數(shù)(參數(shù)向量中各個參數(shù)絕對值之和)的組合,從而減少不必要的復雜性,更清晰地識別出對預后預測真正重要的關鍵因素,簡化模型并提高預測準確性。
LASSO回歸中Coef隨Log(λ)變化曲線圖
隨著收縮算子λ(橫坐標)的增大,各個協(xié)變量(風險因素)的回歸系數(shù)coef(縱坐標)逐漸趨向于0。有的變量迅速到0,表明此變量對模型貢獻較??;有的變量直到最后才趨于0,表明此變量對模型貢獻較大。
預后生物標志物篩選的第二步,便是使用Cox回歸篩選出的預后相關蛋白建立LASSO回歸模型,并采用十折交叉驗證,即將患者樣本數(shù)據(jù)集分成十個部分,每次使用其中九部分訓練模型,剩下的一部分測試模型,重復十次,從而評估模型在未知數(shù)據(jù)上的表現(xiàn)。通過反復的訓練與淘汰,最終篩選出最優(yōu)的預后生物標志物組合。
十折交叉驗證中MSE隨Log(λ)變化曲線圖
通過十折交叉驗證計算出的均方誤差(MSE)選擇最佳的收縮算子λ(橫坐標)值。MSE越小代表模型性能越好,紅色虛線為均方誤差最小時對應的λ值,該λ值對應的LASSO回歸中回歸系數(shù)coef不為0的蛋白質(zhì)(參見上一張圖)即為最終預后生物標志物組合蛋白。
預后生物標志物組合中包含的蛋白質(zhì)一般不多于20個。如果組合中包含的蛋白質(zhì)數(shù)量高于預期,還可根據(jù)蛋白質(zhì)的生物學意義等背景知識對標志物進行進一步篩選,但需注意手動篩選后的標志物組合可能在預測性能上低于理論計算出的最優(yōu)組合。
使用最終的預后生物標志物組合建立風險預測模型,對于每個患者,風險評分(Risk score)的計算公式如下:
公式中,coef對應LASSO回歸中Coef列的值,Protein對應蛋白質(zhì)的表達量。
以所有患者風險評分的中位數(shù)作為閾值,將患者劃分為高風險與低風險兩組,通過Log-rank檢驗驗證潛在預后生物標志物組合對樣本預后風險的劃分能力,并繪制生存曲線。
生存曲線:橫坐標為生存時間,縱坐標為生存率。
在最后的模型構建中,也可納入有預后意義的臨床風險因素(如疾病分期、性別、年齡等)與蛋白質(zhì)預后生物預后標志物共同構建模型,并進行模型性能評估,實現(xiàn)與臨床信息的關聯(lián)。
通過以上流程,能夠實現(xiàn)可靠的預后生物標志物篩選。
此外,青蓮百奧針對隊列樣本研究瓶頸,還獨家推出疾病生物標志物篩選、分子分型高級分析報告。步驟雖繁必不敢省人工,試劑雖貴必不敢減物力,疾病生物標志物解決方案已于昨天與大家見面,之后的推送也將為大家詳細解讀分子分型解決方案,敬請期待~
@2024北京青蓮百奧生物科技有限公司 京ICP備17052224號