5月8日,中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所工程實(shí)驗(yàn)室人工智能與數(shù)字健康部團(tuán)隊(duì)在國(guó)際學(xué)術(shù)期刊《核酸研究》(Nucleic Acids Research)在線發(fā)表題為“Predicting enhancer–gene links from single-cell multi-omics data by integrating prior Hi-C information”的研究成果。該研究開發(fā)了一種名為SCEG-HiC(single-cell enhancer-gene linking with prior Hi-C)的新型計(jì)算方法,將群體細(xì)胞平均染色質(zhì)構(gòu)象作為先驗(yàn)信息整合到單細(xì)胞多組學(xué)數(shù)據(jù)分析中,實(shí)現(xiàn)了對(duì)增強(qiáng)子與靶基因關(guān)系的高精度預(yù)測(cè)。
增強(qiáng)子是基因組中一類關(guān)鍵的順式調(diào)控元件,能夠遠(yuǎn)距離調(diào)控基因表達(dá),在細(xì)胞命運(yùn)決定和疾病發(fā)生發(fā)展中扮演核心角色。近年來(lái),單細(xì)胞染色質(zhì)開放測(cè)序技術(shù)(scATAC-seq)使研究人員能夠在單細(xì)胞分辨率下鑒定潛在增強(qiáng)子。然而,如何為每個(gè)增強(qiáng)子準(zhǔn)確找到其真正調(diào)控的靶基因,仍是該領(lǐng)域面臨的重要難題。現(xiàn)有計(jì)算方法大多依賴增強(qiáng)子開放性與基因表達(dá)之間的統(tǒng)計(jì)相關(guān)性進(jìn)行配對(duì)推斷,但這種策略容易產(chǎn)生“虛假關(guān)聯(lián)”——兩個(gè)區(qū)域信號(hào)的協(xié)同變化,并不一定意味著它們之間存在真實(shí)的物理接觸或調(diào)控關(guān)系。
SCEG-HiC的創(chuàng)新之處在于,它在單細(xì)胞數(shù)據(jù)與群體細(xì)胞染色質(zhì)構(gòu)象(Hi-C)信息之間架設(shè)了一座橋梁。研究團(tuán)隊(duì)采用加權(quán)圖形套索(wglasso)機(jī)器學(xué)習(xí)框架,將基于數(shù)十種細(xì)胞類型構(gòu)建的“平均Hi-C圖譜”轉(zhuǎn)化為“懲罰矩陣”:如果一對(duì)增強(qiáng)子與基因在物理空間上的接觸頻率較高,模型對(duì)其施加的懲罰就較小,相應(yīng)的調(diào)控關(guān)系也更容易被識(shí)別。這樣的設(shè)計(jì)使SCEG-HiC既能保留細(xì)胞狀態(tài)特異的關(guān)聯(lián)信號(hào),又能有效濾除缺乏染色質(zhì)構(gòu)象支持的假陽(yáng)性預(yù)測(cè)。
在涵蓋人類和小鼠的10個(gè)單細(xì)胞多組學(xué)數(shù)據(jù)集上的系統(tǒng)基準(zhǔn)測(cè)試中,SCEG-HiC的預(yù)測(cè)精度均顯著優(yōu)于現(xiàn)有主流單細(xì)胞模型。研究團(tuán)隊(duì)進(jìn)一步將SCEG-HiC應(yīng)用于新冠病毒感染患者的外周血單核細(xì)胞數(shù)據(jù),證明該模型能夠更可靠地重建增強(qiáng)子介導(dǎo)的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),并揭示重癥相關(guān)非編碼遺傳變異所指向的候選靶基因。該研究所用的數(shù)據(jù)均來(lái)自公共開放數(shù)據(jù)集。
SCEG-HiC支持配對(duì)的scATAC/RNA-seq數(shù)據(jù)以及單獨(dú)的scATAC-seq數(shù)據(jù)輸入,為系統(tǒng)解析復(fù)雜性狀和疾病相關(guān)單細(xì)胞數(shù)據(jù)中的增強(qiáng)子—靶基因調(diào)控關(guān)系提供了有力工具。目前,研究團(tuán)隊(duì)已將SCEG-HiC作為開源R包在GitHub上發(fā)布。
中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所博士研究生梁萱為該論文第一作者,王振研究員為通訊作者。研究得到了科技部國(guó)家重點(diǎn)研發(fā)計(jì)劃、廣州國(guó)家實(shí)驗(yàn)室專項(xiàng)項(xiàng)目等的資助,并獲得了汪思佳研究員和黃濤研究員的支持與幫助。
論文鏈接:https://academic.oup.com/nar/article/54/9/gkag437/8672760

圖:SCEG-HiC研究示意圖。SCEG-HiC通過(guò)整合單細(xì)胞多組學(xué)數(shù)據(jù)與群體細(xì)胞先驗(yàn)Hi-C信息,實(shí)現(xiàn)對(duì)增強(qiáng)子—靶基因關(guān)聯(lián)的預(yù)測(cè)?;诩?xì)胞類型特異性Hi-C數(shù)據(jù)和eQTL數(shù)據(jù)的基準(zhǔn)測(cè)試表明,SCEG-HiC在AUPRC和早期精準(zhǔn)率等指標(biāo)上均優(yōu)于現(xiàn)有方法。SCEG-HiC可用于構(gòu)建增強(qiáng)子介導(dǎo)的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),并有助于鑒定受增強(qiáng)子遺傳變異影響的靶基因。
推送單元:工程實(shí)驗(yàn)室人工智能與數(shù)字健康部、科技規(guī)劃與任務(wù)處