【Nature | EpiMap】Regulatory genomic circuitry of human disease loci by integrative epigenomics

Regulatory genomic circuitry of human disease loci by integrative epigenomics


前言

这次分享的是今年2月发表在nature的一篇文章。在分子水平注释人类疾病仍然是一个挑战,因为93%与疾病相关的突变位点位于基因组的非编码区域,而这些区域如何调控基因的转录和翻译仍然未知。为此,来自麻省理工学院的研究人员基于多个大型合作基因组图谱项目(包括ENCODE、Roadmap Epigenomics、Genomics of Gene Regulation)的数据,提出了一个新的人类表观基因组图谱,命名为EpiMap(Epigenome Integration across Multiple Annotation Projects)。

1.EpiMap: Methodological overview and contributions

EpiMap
文章的主要贡献:

  1. 基于多个表观遗传修饰信号注释了染色质状态(chromatin states),同时结合DNA可及性注释增强子
  2. 将增强子分为不同的模块(enhancer modules),并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因;
  3. 整合增强子位置,增强子和基因的远程交互作用和GWAS SNP结果,预测SNP的靶基因和组织特异性;
  4. 将GWAS性状划分为“单因子”和“多因子”性状,揭示了它们与疾病的关系;
  5. 区分了“单效”和“多效”位点,并发现得分最高的位点通常有多个驱动突变,通过不同的方式发挥“多效”功能:多个增强子和一个共同的靶基因、调控单个组织中的多个基因或多个组织中发挥功能。

  EpiMap首先使用统一的数据处理流程分析了来自859个样本的3,030个数据集,并另外使用算法估算出了14,952个数据集。接着基于多个表观遗传修饰信号注释了染色质状态(chromatin states),同时结合DNA可及性注释增强子;在833个生物样本中定义了基于H3K27ac的局部活性水平,并基于此将增强子分为300个增强子模块(enhancer modules),包括290个组织特异性模块和10个广泛活跃的模块。并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因;结合表观基因组-转录组的相关性以及增强子与邻近基因的距离,研究人员预测了增强子-基因交互(enhancer-gene links)。接下来,增强子注释及其组织特异性来解释与复杂性状相关的GWAS位点。最后研究了性状-组织、性状-性状和组织-组织表观基因组GWAS共富集模式,以了解它们之间复杂的相互作用。文章主要分为三个部分介绍,第一部分是数据的产生和验证,数据整理到了并可视化到了网站 compbio.mit.edu/epimap。第二部分是调控基因组相关内容,第三部分是研究表观基因组GWAS共富集模式,了解与疾病的关联。
EpiMap

2.Combined resource: 14,000+ datasets across 833 samples and 18 assays

  来看文章提出的综合数据集,数据包含了833个样本的1万4千多个数据集。数据根据不同的lifestage和type等划分33个tissue。其中蓝色的为观测数据,灰色的是估算出的数据,可以看到估测数据占大部分。
在这里插入图片描述

3.ChromImpute

  研究使用的数据估测方法是2015年这个团队发表在NB上的ChromImpute,首先是建立了同sample的mark-to-mark的回归树,然后建立了同mark的sample-to-sample的回归树,然后combine这两个regression tree进行预测。
ChromeImpute

4.Validation:

  研究通过corss-validation的方法对估测数据进行验证,第一个图是随机2000个location的不同mark的热图,第二个图是三个不同分辨率下三个随机区域中的13个mark和assay的成对观测-估测数据。
Validation
  对于估算数据,计算了所有数据集的QC score,标出了不match观测数据的数据集,红色的是标出的数据集。
low_QC
  研究同样还通过实验新生成数据来验证估测数据,对于both “average-signal” 和 “nearest-track”两种benchmark都表现良好,可以看到无论是点状还是broad的mark,估测数据的AP都非常高。
Experimental_validation

5.Cross –sample relationships

  研究利用数据的active mark和repressive mark来学习cross-sample的关系,通过Spearman相关性聚类发现active mark的聚类主要通过分化谱系和组织类型驱动,比如blood, primary cell和organs,而repressive mark捕获了不同的生命阶段,包括成人,胚胎等等。
Cross-sample relationship
  同时结合染色质状态,DNA可及性和注释增强子,可以建立表观基因树,通过life stage和type分类,然后根据tissue分类。结果可以得到50个子树。
Epigenome tree

  研究还通过ChromHMM注释了18种染色质状态,将数据从127种tissue扩展为833种。可视化结果可以从网站https://epilogos.altius.org/看到,可以看到sample的tracking,覆盖率,染色质状态。研究人员同样还建立了非编码区元素的dictionary,包含激活状态的enhancer/promoter的H3K27ac信号,enhancer的状态和DHS区域,共有2,069,086 enhancers和204,104 Promoters。
chrom annotation

6.Regulatory Genomics

  这是聚类得到的300种激活enhancer的module,97%的module具有tissue特异性,3%在各种tisuue中广泛存在,可以看到他们聚类于不同的器官或者组织,还有一些primary cell和神经脑组织相关的enhancer等。
active enhancers

  关于下游调控基因。结合几何距离,二项式和超几何检验可以做GO富集,其中纵列是不同的enhancer的module,可以看到富集结果具有很强的组织和功能特异性。
downstream gene
  研究同样做了上游调控基因的富集。在202个module上富集有86个motif familiy。motif具有普遍的module特异性,95%的motif,每个motif平均富集在3%的module。还有一部分motif广泛存在于不同的module中。
motif
  基因的Motif富集将组织分类为不同的亚组,比如心脏被划分为胚胎心脏(NFIX和E2F1)、主动脉和动脉(SRF和PAX5)以及心腔(MEF2D和ESRRG);大脑被细分为胚胎(NFIX和NEUROD2),成人大脑(RFX2和SOX10)和星形胶质细胞(NFE2L2和JDP2);造血细胞被细分为为自然杀伤细胞(ETV2)、B细胞(NFKB2和SPIB)和多能祖细胞(GATA1和NFE2L2)。同时master regulator motif表现出了组合型的富集,与多个tissue相关。
tissue partition

  研究同时根据mark水平,距离和enhancer注释相关性,预测gene和enhancer之间的link,每个gene平均和13个enhancer有link,每个enhancer和1.5个gene存在link,平均距离是42359bp。右边是根据2020年提出BENGI提出的benchmark和功能相关划分数据集进行验证。
enhancer gene link

7.GWAS: tissue, target, fine-mapping

  研究人员使用210万个增强子注释及其组织特异性来解释与复杂性状相关的GWAS位点。研究人员汇总了了一份来自803项GWAS研究的GWAS位点数据集,捕获了70,000 多个GWAS位点。研究人员发现了17,658个显著的性状-组织富集,覆盖了245个性状中的27,000多个候选GWAS SNP。图中标注了40个代表性的性状。
GWAS
  研究人员结合表观基因组学的注释和增强子-基因的远程交互作用,对疾病相关的位点产生了新的认识。例如乳腺癌GWAS富集在上皮细胞和癌细胞样本中,其中SNP rs17356907位于靠近USP44基因的增强子内部,但与另一个基因NTN4交互,而NTN4与肿瘤发生和血管生成有关。精神分裂症GWAS在中额叶皮质样本中富集,其中SNP rs2007044位于一组靠近DCP1B启动子的增强子内部,所有这些增强子都与CACNA1C交互,已知CACNA1C编码与神经精神疾病有关的钙通道蛋白,提示多种变异可能共同导致其失调。
locus dissection
  研究人员研究了性状-组织、性状-性状和组织-组织表观基因组GWAS共富集模式,以了解它们之间复杂的相互作用。图中每个圆都是一个性状的tissue富集饼图,研究人员使用在每个性状中富集的组织数量来将性状划分为两类:56个“单因子”性状(22%)在一个组织中具有最多富集(例如,心脏的QT间期、脑的受教育程度和免疫细胞的甲状腺功能减退),而192个“多因子”性状(79%)平均富集在五个组织类别中(例如,免疫细胞和大脑中的阿尔茨海默病;脂肪、肌肉、肾脏和消化组织中的腰臀比),其中26个“多因子”性状(11%)平均富集在14个组织类别中。

GWAS-tissue
  根据组织的共富集特性可以区分每个GWAS性状的“主要”组织(例如免疫细胞,肝脏,心脏,大脑和脂肪组织)与“伙伴”组织(例如,消化、肺、肌肉和上皮组织),“主要”组织和“伙伴”组织相比始终表现出更高的富集,这表明它们具有驱动作用而不是辅助作用。特定的主要-伙伴组织共同发生的频率比预期的要高,并且揭示了它们可能在性状上共同发挥作用。冠状动脉疾病(CAD)富集在19个组织组中,其中肝脏、心脏、等具有更多的SNP,涉及到更多的生物过程。
pathway
  可以看到CAD的一些 snp位点只在心脏、肝脏富集,还有一些富集在不同的tissue中。研究人员将“多因子”性状的SNPs划分为组织特异性的组分。例如,339个与CAD相关的SNPs划分为:195个富含动脉、心脏和血管形态发生的心脏增强子SNPs;171个脂质稳态的内分泌增强子SNPs;169个胆固醇和脂质代谢和转运的肝脏增强子SNPs;轴突导向和局灶粘附中122个脂肪增强子SNPs,与脂肪组织神经支配过程一致;112个胚胎干细胞衍生的肌肉增强子SNPs,富含中隔形态发生、腔和主动脉发育。

  这些分区也显示出独特的协同关系。例如:心脏,肌肉和内皮细胞增强子中的CAD SNPs均与与高血压和心房颤动相关;肝脏和内分泌增强子中的CAD SNPs与收缩压相关;脂肪增强CAD SNP与腰臀比相关;以及肝脏,脂肪和内分泌CAD SNPs与HDL胆固醇相关。

  从单个多因子性状位点来看,既有在单个组织中富集的,也有在多个组织中富集的。一些CAD SNP位点仅与心脏增强子重叠(例如EDNRA、TCF21和ADAMTS7),一些仅与肝脏增强子重叠例如PCSK9),一些不位于任何增强子中,许多位于广泛活跃的增强子中(例如,LDLR、APOE、SH2B3和COL4A1),这表明即使在单个SNP位点水平上也存在多种调控机制。
CAD locus
  研究人员区分了“单效”和“多效”位点,并发现得分最高的位点通常有多个驱动突变,通过不同的方式发挥“多效”功能:多个增强子和一个共同的靶基因、调控单个组织中的多个基因或多个组织中发挥功能。即使看似单一的SNP也会在其他组织里:rs17114046在肝脏中有很强的信号,同时它位于多个增强子中,并调控基因PLPP3,肝脏特异性PLPP3缺失会增加动脉粥样硬化;然而这个SNP也同时连接到另一个肝脏产生的补体因子C8A,并通过心脏特异性和肌肉特异性的交互连接到PRKAA2。这说明单个SNP也可能具有多种功能,这一特性存在与许多高度富集的SNP中。
CAD locus

8.Conclusion

  该研究结果证明了高通量、丰富多维、高分辨率的表观基因组和调控回路注释在研究基因调控、复杂性状和疾病位点机制研究中的实用性,使得生物空间和疾病复杂性的规模、范围和覆盖面达到前所未有的程度。以上所有的network,dataset和locus都已可视化并且可以在网址compbio.mit.edu/epimap下载。

Coarse-Grained Reconfigurable Architectures (CGRAs) are an at- tractive platform that promise simultaneous high-performance and high power-efficiency. One of the primary challenges in using CGRAs is to develop efficient compilers that can automatically and efficiently map applications to the CGRA. To this end, this paper makes several contributions: i) Using Re-computation for Resource Limitations: For the first time in CGRA compilers, we propose the use of re-computation as a solution for resource limita- tion problem. This extends the solutions space, and enables better mappings, ii) General Problem Formulation: A precise and gen- eral formulation of the application mapping problem on a CGRA is presented, and its computational complexity is established. iii) Ex- tracting an Efficient Heuristic: Using the insights from the problem formulation, we design an effective global heuristic called EPIMap. EPIMap transforms the input specification (a directed graph) to an Epimorphic equivalent graph that satisfies the necessary conditions for mapping on to a CGRA, reducing the search space. Experi- mental results on 14 important kernels extracted from well known benchmark programs show that using EPIMap can improve the per- formance of the kernels on CGRA by more than 2.8X on average, as compared to one of the best existing mapping algorithm, EMS. EPIMap was able to achieve the theoretical best performance for 9 out of 14 benchmarks, while EMS could not achieve the theoreti- cal best performance for any of the benchmarks. EPIMap achieves better mappings at acceptable increase in the compilation time.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值