2022年2月28日,Genome Biology在線發(fā)表了中國科學院上海營養(yǎng)與健康研究所邵振研究組題為“HyperChIP: identification of hypervariable signals across ChIP-seq or ATAC-seq samples”的方法學論文,報道了其開發(fā)的HyperChIP計算模型。它能對多個ChIP/ATAC-seq樣本間信號強度差異進行統(tǒng)計建模,識別高變信號基因組區(qū)域(hypervariable regions,HVRs);一系列下游分析表明,這些表觀調(diào)控信號樣本間差異顯著高于背景模型的位點可有效用于揭示被比較樣本集的宏觀異質(zhì)性結(jié)構(gòu)(疾病亞型或進程、組織分化階段、種群遺傳背景等)及其上游調(diào)控機制。
真實人群尤其是癌癥等慢性疾病病人在基因組、轉(zhuǎn)錄組等很多層面表現(xiàn)出較高的異質(zhì)性。它們緊密聯(lián)系著疾病臨床表現(xiàn)等個體表型差異。但由于表觀組ChIP-seq和ATAC-seq數(shù)據(jù)跨樣本定量比較還存在許多公認難題,尚未有能通過多樣本統(tǒng)計比較來識別高異質(zhì)性表觀調(diào)控位點的完整計算模型被發(fā)表,造成很多相關(guān)研究只能采用一些經(jīng)驗方法。但是,這些經(jīng)驗分析方法還存在易受技術(shù)因素影響和缺乏統(tǒng)計顯著性判據(jù)等缺陷,成為制約疾病和正常人群表觀組異質(zhì)性精準解讀的一個關(guān)鍵技術(shù)瓶頸。
針對這一點,HyperChIP提出使用擬合的ChIP/ATAC-seq信號強度均值-方差關(guān)系來對每個位點的觀測信號方差進行標度,并以基因表達數(shù)據(jù)為參照,指出相比于各種經(jīng)驗統(tǒng)計指標,上述方法獲得的標度方差(scaled variance)能更好地衡量每個位點表觀調(diào)控信號的樣本間異質(zhì)性水平(圖A) ;然后,在評估其統(tǒng)計顯著性時,引入?yún)^(qū)域篩選(subset selection)和縮尾處理(winsorization)等手段來控制潛藏真陽性位點對參數(shù)估計的影響,顯著改善了HVR識別的統(tǒng)計功效,實現(xiàn)對被比較樣本間表觀組異質(zhì)性的完整統(tǒng)計刻畫(圖B)。
將HyperChIP應(yīng)用于42例肺腺癌病人腫瘤的H3K27ac ChIP-seq數(shù)據(jù),發(fā)現(xiàn)在識別的HVRs中,很多位點的H3K27ac水平與腫瘤的臨床診斷階段有較強的關(guān)聯(lián)。另一方面,應(yīng)用它分析由數(shù)百例TCGA腫瘤樣本生成的大型pan-cancer ATAC-seq數(shù)據(jù)集,發(fā)現(xiàn)基于所得HVRs能較好地將不同癌癥類型的樣本分開。其中一些組織來源或細胞形態(tài)相近而聚在一起的癌癥樣本,被歸類定義為四個癌癥超類型(super class),即腦部腫瘤、消化道腺癌、腎癌和鱗狀細胞癌。進一步,通過構(gòu)建轉(zhuǎn)錄因子活性(TF activity)打分模型,發(fā)現(xiàn)了大量被特定癌癥超家族中樣本所共有的轉(zhuǎn)錄調(diào)控因子(圖C)。它們中很多被基因表達數(shù)據(jù)和其它研究結(jié)果支持。例如,TP63被發(fā)現(xiàn)在鱗細胞癌樣本間具有普遍較高的轉(zhuǎn)錄因子活性,而很多研究已經(jīng)指出它是一個泛鱗癌致癌因子。
此外,將HyperChIP應(yīng)用于正常組織ChIP/ATAC-seq數(shù)據(jù)也能獲得有價值的發(fā)現(xiàn)。例如,應(yīng)用它比較著床前不同時間點的小鼠胚胎ATAC-seq數(shù)據(jù),對所得的HVRs進行主成分分析,發(fā)現(xiàn)第一主成分指征了胚胎的不同發(fā)育階段;進一步結(jié)合轉(zhuǎn)錄因子活性分析,可有效發(fā)掘出不同階段所特異的轉(zhuǎn)錄調(diào)控因子。另一方面,應(yīng)用它比較十余個不同人類個體的淋巴母細胞系CTCF ChIP-seq數(shù)據(jù),對所得的HVRs進行主成分分析,發(fā)現(xiàn)能很好地將樣本按個體所屬種群分開(圖D)。
中國科學院上海營養(yǎng)與健康研究所博士生陳浩杰和博士后涂世奇為該論文共同第一作者,邵振研究員和涂世奇為共同通訊作者。復旦大學生命科學學院張一婧研究員、復旦大學附屬腫瘤醫(yī)院孫藝華主任等對該工作的提出和完善也做出了重要貢獻。該工作獲得了國家自然科學基金委,科技部,中國科學院的資助。上述研究所使用的所有數(shù)據(jù)均來自已公開發(fā)表數(shù)據(jù)。

圖:(A) HyperChIP模型以校正了均值-方差關(guān)系的標度方差(scaled variance)為統(tǒng)計指標, 使不同信號強度水平的基因組區(qū)域之間的信號差異水平更加可比。(B)通過引入?yún)^(qū)域篩選和縮尾處理等手段來控制潛藏真陽性對參數(shù)估計的影響,顯著改善了HVR識別的統(tǒng)計功效。(C)將HyperChIP應(yīng)用于TCGA pan-cancer ATAC-seq數(shù)據(jù)集,基于所得HVRs將部分組織來源或細胞形態(tài)相近的樣本歸類定義為四個癌癥超類型(super class),即腦部腫瘤(Brain cancer)、腎癌(Kidney carcinoma)、消化道腺癌(Digestive adenocarcinoma)和鱗狀細胞癌(Squamous cell carcinoma);下游的轉(zhuǎn)錄因子活性打分分析,發(fā)現(xiàn)了大量被每個超家族中腫瘤樣本所共有的轉(zhuǎn)錄調(diào)控因子。(D)比較十余個不同人類個體的淋巴母細胞系CTCF ChIP-seq數(shù)據(jù),發(fā)現(xiàn)基于所得HVRs能很好地區(qū)分不同種群個體的樣本。
論文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02627-9