Regulatory genomic circuitry of human disease loci by integrative epigenomics
前言
这次分享的是今年2月发表在nature的一篇文章。在分子水平注释人类疾病仍然是一个挑战,因为93%与疾病相关的突变位点位于基因组的非编码区域,而这些区域如何调控基因的转录和翻译仍然未知。为此,来自麻省理工学院的研究人员基于多个大型合作基因组图谱项目(包括ENCODE、Roadmap Epigenomics、Genomics of Gene Regulation)的数据,提出了一个新的人类表观基因组图谱,命名为EpiMap(Epigenome Integration across Multiple Annotation Projects)。1.EpiMap: Methodological overview and contributions
文章的主要贡献:
- 基于多个表观遗传修饰信号注释了染色质状态(chromatin states),同时结合DNA可及性注释增强子;
- 将增强子分为不同的模块(enhancer modules),并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因;
- 整合增强子位置,增强子和基因的远程交互作用和GWAS SNP结果,预测SNP的靶基因和组织特异性;
- 将GWAS性状划分为“单因子”和“多因子”性状,揭示了它们与疾病的关系;
- 区分了“单效”和“多效”位点,并发现得分最高的位点通常有多个驱动突变,通过不同的方式发挥“多效”功能:多个增强子和一个共同的靶基因、调控单个组织中的多个基因或多个组织中发挥功能。
EpiMap首先使用统一的数据处理流程分析了来自859个样本的3,030个数据集,并另外使用算法估算出了14,952个数据集。接着基于多个表观遗传修饰信号注释了染色质状态(chromatin states),同时结合DNA可及性注释增强子;在833个生物样本中定义了基于H3K27ac的局部活性水平,并基于此将增强子分为300个增强子模块(enhancer modules),包括290个组织特异性模块和10个广泛活跃的模块。并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因;结合表观基因组-转录组的相关性以及增强子与邻近基因的距离,研究人员预测了增强子-基因交互(enhancer-gene links)。接下来,增强子注释及其组织特异性来解释与复杂性状相关的GWAS位点。最后研究了性状-组织、性状-性状和组织-组织表观基因组GWAS共富集模式,以了解它们之间复杂的相互作用。文章主要分为三个部分介绍,第一部分是数据的产生和验证,数据整理到了并可视化到了网站 compbio.mit.edu/epimap。第二部分是调控基因组相关内容,第三部分是研究表观基因组GWAS共富集模式,了解与疾病的关联。
2.Combined resource: 14,000+ datasets across 833 samples and 18 assays
来看文章提出的综合数据集,数据包含了833个样本的1万4千多个数据集。数据根据不同的lifestage和type等划分33个tissue。其中蓝色的为观测数据,灰色的是估算出的数据,可以看到估测数据占大部分。
3.ChromImpute
研究使用的数据估测方法是2015年这个团队发表在NB上的ChromImpute,首先是建立了同sample的mark-to-mark的回归树,然后建立了同mark的sample-to-sample的回归树,然后combine这两个regression tree进行预测。
4.Validation:
研究通过corss-validation的方法对估测数据进行验证,第一个图是随机2000个location的不同mark的热图,第二个图是三个不同分辨率下三个随机区域中的13个mark和assay的成对观测-估测数据。
对于估算数据,计算了所有数据集的QC score,标出了不match观测数据的数据集,红色的是标出的数据集。
研究同样还通过实验新生成数据来验证估测数据,对于both “average-signal” 和 “nearest-track”两种benchmark都表现良好,可以看到无论是点状还是broad的mark,估测数据的AP都非常高。
5.Cross –sample relationships
研究利用数据的active mark和repressive mark来学习cross-sample的关系,通过Spearman相关性聚类发现active mark的聚类主要通过分化谱系和组织类型驱动,比如blood, primary cell和organs,而repressive mark捕获了不同的生命阶段,包括成人,胚胎等等。
同时结合染色质状态,DNA可及性和注释增强子,可以建立表观基因树,通过life stage和type分类,然后根据tissue分类。结果可以得到50个子树。
研究还通过ChromHMM注释了18种染色质状态,将数据从127种tissue扩展为833种。可视化结果可以从网站https://epilogos.altius.org/看到,可以看到sample的tracking,覆盖率,染色质状态。研究人员同样还建立了非编码区元素的dictionary,包含激活状态的enhancer/promoter的H3K27ac信号,enhancer的状态和DHS区域,共有2,069,086 enhancers和204,104 Promoters。
6.Regulatory Genomics
这是聚类得到的300种激活enhancer的module,97%的module具有tissue特异性,3%在各种tisuue中广泛存在,可以看到他们聚类于不同的器官或者组织,还有一些primary cell和神经脑组织相关的enhancer等。
关于下游调控基因。结合几何距离,二项式和超几何检验可以做GO富集,其中纵列是不同的enhancer的module,可以看到富集结果具有很强的组织和功能特异性。
研究同样做了上游调控基因的富集。在202个module上富集有86个motif familiy。motif具有普遍的module特异性,95%的motif,每个motif平均富集在3%的module。还有一部分motif广泛存在于不同的module中。
基因的Motif富集将组织分类为不同的亚组,比如心脏被划分为胚胎心脏(NFIX和E2F1)、主动脉和动脉(SRF和PAX5)以及心腔(MEF2D和ESRRG);大脑被细分为胚胎(NFIX和NEUROD2),成人大脑(RFX2和SOX10)和星形胶质细胞(NFE2L2和JDP2);造血细胞被细分为为自然杀伤细胞(ETV2)、B细胞(NFKB2和SPIB)和多能祖细胞(GATA1和NFE2L2)。同时master regulator motif表现出了组合型的富集,与多个tissue相关。
研究同时根据mark水平,距离和enhancer注释相关性,预测gene和enhancer之间的link,每个gene平均和13个enhancer有link,每个enhancer和1.5个gene存在link,平均距离是42359bp。右边是根据2020年提出BENGI提出的benchmark和功能相关划分数据集进行验证。
7.GWAS: tissue, target, fine-mapping
研究人员使用210万个增强子注释及其组织特异性来解释与复杂性状相关的GWAS位点。研究人员汇总了了一份来自803项GWAS研究的GWAS位点数据集,捕获了70,000 多个GWAS位点。研究人员发现了17,658个显著的性状-组织富集,覆盖了245个性状中的27,000多个候选GWAS SNP。图中标注了40个代表性的性状。
研究人员结合表观基因组学的注释和增强子-基因的远程交互作用,对疾病相关的位点产生了新的认识。例如乳腺癌GWAS富集在上皮细胞和癌细胞样本中,其中SNP rs17356907位于靠近USP44基因的增强子内部,但与另一个基因NTN4交互,而NTN4与肿瘤发生和血管生成有关。精神分裂症GWAS在中额叶皮质样本中富集,其中SNP rs2007044位于一组靠近DCP1B启动子的增强子内部,所有这些增强子都与CACNA1C交互,已知CACNA1C编码与神经精神疾病有关的钙通道蛋白,提示多种变异可能共同导致其失调。
研究人员研究了性状-组织、性状-性状和组织-组织表观基因组GWAS共富集模式,以了解它们之间复杂的相互作用。图中每个圆都是一个性状的tissue富集饼图,研究人员使用在每个性状中富集的组织数量来将性状划分为两类:56个“单因子”性状(22%)在一个组织中具有最多富集(例如,心脏的QT间期、脑的受教育程度和免疫细胞的甲状腺功能减退),而192个“多因子”性状(79%)平均富集在五个组织类别中(例如,免疫细胞和大脑中的阿尔茨海默病;脂肪、肌肉、肾脏和消化组织中的腰臀比),其中26个“多因子”性状(11%)平均富集在14个组织类别中。
根据组织的共富集特性可以区分每个GWAS性状的“主要”组织(例如免疫细胞,肝脏,心脏,大脑和脂肪组织)与“伙伴”组织(例如,消化、肺、肌肉和上皮组织),“主要”组织和“伙伴”组织相比始终表现出更高的富集,这表明它们具有驱动作用而不是辅助作用。特定的主要-伙伴组织共同发生的频率比预期的要高,并且揭示了它们可能在性状上共同发挥作用。冠状动脉疾病(CAD)富集在19个组织组中,其中肝脏、心脏、等具有更多的SNP,涉及到更多的生物过程。
可以看到CAD的一些 snp位点只在心脏、肝脏富集,还有一些富集在不同的tissue中。研究人员将“多因子”性状的SNPs划分为组织特异性的组分。例如,339个与CAD相关的SNPs划分为:195个富含动脉、心脏和血管形态发生的心脏增强子SNPs;171个脂质稳态的内分泌增强子SNPs;169个胆固醇和脂质代谢和转运的肝脏增强子SNPs;轴突导向和局灶粘附中122个脂肪增强子SNPs,与脂肪组织神经支配过程一致;112个胚胎干细胞衍生的肌肉增强子SNPs,富含中隔形态发生、腔和主动脉发育。
这些分区也显示出独特的协同关系。例如:心脏,肌肉和内皮细胞增强子中的CAD SNPs均与与高血压和心房颤动相关;肝脏和内分泌增强子中的CAD SNPs与收缩压相关;脂肪增强CAD SNP与腰臀比相关;以及肝脏,脂肪和内分泌CAD SNPs与HDL胆固醇相关。
从单个多因子性状位点来看,既有在单个组织中富集的,也有在多个组织中富集的。一些CAD SNP位点仅与心脏增强子重叠(例如EDNRA、TCF21和ADAMTS7),一些仅与肝脏增强子重叠例如PCSK9),一些不位于任何增强子中,许多位于广泛活跃的增强子中(例如,LDLR、APOE、SH2B3和COL4A1),这表明即使在单个SNP位点水平上也存在多种调控机制。
研究人员区分了“单效”和“多效”位点,并发现得分最高的位点通常有多个驱动突变,通过不同的方式发挥“多效”功能:多个增强子和一个共同的靶基因、调控单个组织中的多个基因或多个组织中发挥功能。即使看似单一的SNP也会在其他组织里:rs17114046在肝脏中有很强的信号,同时它位于多个增强子中,并调控基因PLPP3,肝脏特异性PLPP3缺失会增加动脉粥样硬化;然而这个SNP也同时连接到另一个肝脏产生的补体因子C8A,并通过心脏特异性和肌肉特异性的交互连接到PRKAA2。这说明单个SNP也可能具有多种功能,这一特性存在与许多高度富集的SNP中。
8.Conclusion
该研究结果证明了高通量、丰富多维、高分辨率的表观基因组和调控回路注释在研究基因调控、复杂性状和疾病位点机制研究中的实用性,使得生物空间和疾病复杂性的规模、范围和覆盖面达到前所未有的程度。以上所有的network,dataset和locus都已可视化并且可以在网址compbio.mit.edu/epimap下载。