生物標(biāo)志物指可以標(biāo)記生物體生理病理變化或可能發(fā)生的變化的生化指標(biāo),在醫(yī)學(xué)和生命科學(xué)領(lǐng)域應(yīng)用廣泛,能夠為疾病的預(yù)測、診斷、監(jiān)測及治療的效果、安全性、預(yù)后提供客觀測定和評價。利用臨床隊列樣本尋找和發(fā)現(xiàn)有價值的生物標(biāo)志物已經(jīng)成為了當(dāng)今的研究熱點。
蛋白質(zhì)生物標(biāo)志物在疾病生物標(biāo)志物中占有重要的地位。美國早期檢測研究網(wǎng)絡(luò)(EDRN)數(shù)據(jù)庫針對十種器官共收錄了583種蛋白質(zhì)生物標(biāo)志物,占所收錄的全部生物標(biāo)志物的57%。此外,獲得FDA批準(zhǔn)的臨床疾病生物標(biāo)志物90%以上都是蛋白質(zhì)。
通過蛋白質(zhì)組學(xué)手段對臨床隊列樣本進行檢測,并結(jié)合機器學(xué)習(xí)進行標(biāo)志物篩選是疾病生物標(biāo)志物發(fā)現(xiàn)的經(jīng)典方法。下面就讓我們一起來看看基于機器學(xué)習(xí)的標(biāo)志物篩選是如何實現(xiàn)的吧~
基于機器學(xué)習(xí)的生物標(biāo)志物篩選流程總覽[1]
選擇合適的樣本對于篩選出的疾病生物標(biāo)志物的有效性至關(guān)重要,用于開展標(biāo)志物篩選研究的樣本常為臨床組織或體液樣本。
選擇組織樣本作為發(fā)現(xiàn)隊列是標(biāo)志物發(fā)現(xiàn)的常見方法,即從組織樣本的蛋白質(zhì)組學(xué)結(jié)果中尋找差異蛋白,而后采用血液、尿液、腦脊液等樣本蛋白質(zhì)數(shù)據(jù)作為驗證隊列進行標(biāo)志物的驗證。這種樣本選擇策略在保證生物學(xué)意義的前提下確保了生物標(biāo)志物的易檢測性,從而促進生物標(biāo)志物的臨床轉(zhuǎn)化。
發(fā)現(xiàn)隊列和驗證隊列均為血液樣本現(xiàn)在也越來越多的用于臨床研究中。例如2024年7月劍橋大學(xué)與葛蘭素史克公司發(fā)表在《Nature Medicine》(IF 58.7)上的文章便利用血漿蛋白質(zhì)組學(xué)開發(fā)了針對218種疾病的預(yù)測模型,該文章指出只需檢測血漿中5-20種蛋白即可預(yù)測患52種不同疾病的風(fēng)險[2]。
對于67種疾病中的52種,基于蛋白質(zhì)標(biāo)志物的模型擁有更好的預(yù)測性能[2]
在疾病生物標(biāo)志物研究中,樣本通常根據(jù)研究目的分為不同的組別,從而實現(xiàn)不同疾病狀態(tài)下蛋白質(zhì)表達差異的比較和分析,以下是常見的樣本組別設(shè)計:
明確樣本分組后,應(yīng)保證每組的樣本量充足,以確保統(tǒng)計分析的效力。據(jù)統(tǒng)計,使用常見的邏輯回歸模型進行標(biāo)志物篩選,在每組樣本數(shù)大于50例時模型準(zhǔn)確性可達0.8以上,在樣本數(shù)大于100例時模型準(zhǔn)確性可達0.9以上。因此為確保模型的準(zhǔn)確性,一般建議基于機器學(xué)習(xí)方法的標(biāo)志物發(fā)現(xiàn)每組應(yīng)包含大于50例樣本。
作為國內(nèi)領(lǐng)先的蛋白質(zhì)組學(xué)診療標(biāo)志物創(chuàng)新平臺,青蓮百奧針對疾病生物標(biāo)志物篩選使用機器學(xué)習(xí)算法開發(fā)了全套生物標(biāo)志物篩選解決方案。下面就來看看生物標(biāo)志物篩選解決方案是怎么實現(xiàn)的吧~
生物標(biāo)志物篩選的第一步是對原始數(shù)據(jù)進行預(yù)處理,從而確保數(shù)據(jù)的質(zhì)量,為后續(xù)分析打下基礎(chǔ)。數(shù)據(jù)預(yù)處理包括以下幾個層面:
1) 樣本剔除:剔除鑒定數(shù)異常不具有代表性的樣本,減少其對后續(xù)標(biāo)志物篩選流程的干擾,例如鑒定到的蛋白個數(shù)小于100的樣本。
2) 蛋白剔除:剔除檢出率異常不具有代表性的蛋白質(zhì),減少其對后續(xù)標(biāo)志物篩選流程的干擾,例如在50%的樣本中存在缺失值的蛋白質(zhì)。需注意,某些蛋白質(zhì)可能會在特定組別特異性檢出,雖然缺失值大于50%,但仍具有作為疾病生物標(biāo)志物的潛力,應(yīng)根據(jù)具體情況進行選擇性關(guān)注。
3) 缺失值填補:許多機器學(xué)習(xí)算法無法處理缺失值,直接刪除帶有缺失值的行列可能刪除過多數(shù)據(jù),因此需要采用缺失值填補的方式盡可能的保留數(shù)據(jù)集信息。對于蛋白質(zhì)組學(xué)數(shù)據(jù)常采用全局最小值進行填補,即以所有樣本中最低的定量值作為檢測的極限值替換所有缺失值。
4) 數(shù)據(jù)轉(zhuǎn)換:z-score轉(zhuǎn)換(也稱標(biāo)準(zhǔn)化)是一種使數(shù)據(jù)具有標(biāo)準(zhǔn)正態(tài)分布特性的方法,有助于消除不同蛋白質(zhì)之間由于量綱不同或量級差異帶來的影響,使得數(shù)據(jù)更適合進行比較和進一步的統(tǒng)計分析。此外,z-score轉(zhuǎn)換還可以提高對微小變化的敏感性,這對標(biāo)志物的發(fā)現(xiàn)至關(guān)重要。
5)初步篩選:理想的生物標(biāo)志物個數(shù)為5個左右,因此需要對鑒定到的蛋白質(zhì)進行篩選,通常只保留樣本間方差最大的前10%蛋白質(zhì),從而避免蛋白質(zhì)表達量差距過小臨床檢測手段難以區(qū)分,無法實現(xiàn)臨床轉(zhuǎn)化的情況。
疾病生物標(biāo)志物應(yīng)具有根據(jù)蛋白質(zhì)定量信息將樣本分為不同類別的能力,如健康與疾病、疾病不同進程等,因此需要用到分類器模型。分類器模型的選擇需要充足的知識儲備支撐。而在這里,我們采用9種機器學(xué)習(xí)算法,包括邏輯回歸、線性支持向量機(Linear SVM)、決策樹、隨機森林、自適應(yīng)增強、梯度提升決策樹、線性判別分析、極端梯度提升、輕量梯度提升機分類器模型,結(jié)合各算法構(gòu)建出的模型的性能指標(biāo)(主要為AUC)選擇最佳的模型用于本次標(biāo)志物篩選,避免在分類器模型選擇上的困難。
選定分類器模型后就來到了正式的標(biāo)志物篩選步驟,這一步需從眾多蛋白質(zhì)中挑選出最具區(qū)分能力的疾病生物標(biāo)志物組合。
遞歸特征消除法(RFE)是一種用于選擇最重要特征(蛋白質(zhì))的方法。它通過反復(fù)訓(xùn)練模型,每次剔除對模型貢獻最小的特征,直到達到預(yù)定的特征數(shù)量或模型性能不再提高。
五折交叉驗證是一種評估模型性能的方法。它將數(shù)據(jù)集分成五個部分,每次使用其中四部分訓(xùn)練模型,剩下的一部分測試模型,重復(fù)五次。這種方法可以準(zhǔn)確評估模型在未知數(shù)據(jù)上的表現(xiàn)。
通過遞歸特征消除法的選擇和五折交叉驗證的性能評估,在反復(fù)的訓(xùn)練與淘汰中,最終篩選出最優(yōu)的生物標(biāo)志物組合,組合中包含的蛋白質(zhì)一般不多于20個。如果組合中包含的蛋白質(zhì)數(shù)量高于預(yù)期,還可根據(jù)蛋白質(zhì)的生物學(xué)意義等背景知識對標(biāo)志物進行進一步篩選,但需注意手動篩選后的標(biāo)志物組合可能在預(yù)測性能上低于理論計算出的最優(yōu)組合。
基于篩選出的潛在生物標(biāo)志物建立預(yù)測模型,并使用五折交叉驗證進行評估。
通過以上流程整合多個機器學(xué)習(xí)模型,利用最優(yōu)模型篩選潛在生物標(biāo)志物建立預(yù)測模型并進行效果評估,能夠?qū)崿F(xiàn)可靠的標(biāo)志物篩選。此外,青蓮百奧針對隊列樣本研究瓶頸,還獨家推出預(yù)后標(biāo)志物篩選、分子分型高級分析報告。步驟雖繁必不敢省人工,試劑雖貴必不敢減物力,之后的系列推送也將為大家詳細(xì)解讀預(yù)后標(biāo)志物篩選與分子分型解決方案,敬請期待~
【參考文獻】
[1] MANN M, KUMAR C, ZENG W F, et al. Artificial intelligence for proteomics and biomarker discovery [J]. Cell Syst, 2021, 12(8): 759-70.
[2] CARRASCO-ZANINI J, PIETZNER M, DAVITTE J, et al. Proteomic signatures improve risk prediction for common and rare diseases [J]. Nature Medicine, 2024.
@2024北京青蓮百奧生物科技有限公司 京ICP備17052224號