4月15日,中國科學(xué)院上海營養(yǎng)與健康研究所工程實(shí)驗(yàn)室人工智能與數(shù)字健康部團(tuán)隊(duì)在國際學(xué)術(shù)期刊Science Advances在線發(fā)表題為“Cross-species prediction reveals chromatin regions with increased accessibility in humans”的研究成果。該研究通過構(gòu)建基于DNA序列的跨靈長類動(dòng)物深度學(xué)習(xí)模型,系統(tǒng)揭示了人類特異性染色質(zhì)開放性增強(qiáng)區(qū)域的演化規(guī)律與潛在功能。
人類獨(dú)特的表型和對(duì)復(fù)雜疾病的易感性,大多源于基因組非編碼區(qū)的調(diào)控差異。作為基因表達(dá)的核心調(diào)控元件,染色質(zhì)開放區(qū)域的演化和功能研究對(duì)于解析人類特有性狀的分子機(jī)制至關(guān)重要。然而,目前人類近緣靈長類物種的相關(guān)表觀遺傳數(shù)據(jù)十分稀缺,制約著人類演化調(diào)控機(jī)制的深入探索。
為此,研究團(tuán)隊(duì)巧妙地利用人工智能技術(shù)尋找破局之道。團(tuán)隊(duì)首先證實(shí),僅利用人類數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,就能精準(zhǔn)預(yù)測(cè)靈長類動(dòng)物的染色質(zhì)開放程度,這表明深度學(xué)習(xí)可以有效捕捉“調(diào)控語法”的演化保守性?;谶@一模型,團(tuán)隊(duì)最終在111種人類細(xì)胞類型中,鑒定出相對(duì)于祖先物種,人類特異的染色質(zhì)開放性增強(qiáng)區(qū)域。這些區(qū)域具有高度的細(xì)胞特異性,不僅富集于基因表達(dá)調(diào)控核心元件,還受到正選擇的作用;其內(nèi)部的人類特有變異,更易改變轉(zhuǎn)錄因子結(jié)合位點(diǎn),進(jìn)而直接關(guān)聯(lián)人類骨量變化、體脂增加等特有演化性狀。
該研究突破了跨物種表觀遺傳學(xué)研究的數(shù)據(jù)壁壘,開辟了人類非編碼序列演化研究的新路徑,為解析人類特有表型形成的遺傳基礎(chǔ)提供了新策略。
中國科學(xué)院上海營養(yǎng)與健康研究所博士畢業(yè)生王臨孝為該論文第一作者,王振研究員為通訊作者。該研究得到國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計(jì)劃等項(xiàng)目的資助。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.ady9169

圖:研究方法示意圖。在非編碼序列比較基因組學(xué)研究中,一大難題在于人類積累了豐富的表觀基因組標(biāo)記數(shù)據(jù),而近緣靈長類物種則較為缺乏。為此,研究采用深度學(xué)習(xí)方法,將從人類數(shù)據(jù)中學(xué)習(xí)到的DNA序列與染色質(zhì)開放性的對(duì)應(yīng)關(guān)系遷移到近緣物種中,從而實(shí)現(xiàn)了物種間染色質(zhì)開放性的比較。
推送單元:工程實(shí)驗(yàn)室人工智能與數(shù)字健康部、科技規(guī)劃與任務(wù)處