多组学

微生物组与人类健康：基因组、表观组与代谢组的交织

最新推荐文章于 2025-03-04 11:10:16 发布

原创最新推荐文章于 2025-03-04 11:10:16 发布 · 2k 阅读

18 ·

CC 4.0 BY-SA版权

生物信息专栏收录该内容

50 篇文章

订阅专栏

基因组

元基因组

人体内共生的微生物多达1000多种
肠道菌群结构的改变与失衡除会导致肠道疾病外，还与很多慢性全身性的代谢性疾病，如糖尿病、肥胖，甚至是癌症的发生有着密切关系。过去一些找不到确切病原菌的肠道疾病，即非感染性肠道疾病（如肠易激综合征等），现在研究认为，肠道内微生物群落结构失调可能与其发生有重大关系。
糖尿病模型动物肠道中的一些特定菌的数量有所变化——两种乳酸菌数量明显下降。国外也有研究报道，补充乳酸菌制剂能缓解模型动物的糖尿病症状。
饮食结构改变产生的菌群结构异常可导致肥胖。肠道菌群可以直接调节宿主脂肪存储组织的基因表达活性，使宿主增加脂肪的积累。这些研究有力地支持了肠道菌群在人类这样的“超级生物体”生理代谢中的地位。这从另一个角度证明，肥胖是人的基因和微生物基因共同作用的结果，甚至在某种程度上，后者的作用可能更大。
“第二人类基因组计划”的项目对人体内所有共生的微生物群落进行测序和功能分析，其序列测定工作量至少相当于10个人类基因组计划，并有可能发现超过100万个新的基因，最终在新药研发、药物毒性控制和个体化用药等方面实现突破性进展。
分析流程
 分析流程2

数据质控，使用 kneaddata 软件，该软件先调用 Trimmomatic 过滤数据，然后利用 bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。
基因组组装，推荐使用 megahit 和 metaspades 软件按照样本进行宏基因组组装，第一个软件快，第二个软件组装质量更好，但是更加耗时。
基因预测，使用metagenemark软件直接从组装好的 contig 或者 scafford 预测基因，并使用cd-hit构建非冗余基因集。
基因功能预测，针对非冗余基因集，利用blast等软件比对 NR, COG, GO, KEGG, CAZY, ARDB 等数据库注释基因的功能。
基因丰度分析，有两种方案，第一种非比对方案，使用 Salmon 软件；第二种比对方案，bwa或其他比对软件比对，bedtools丰度统计。
功能丰度分析，结合基因丰度和基因功能注释进行功能分析；也可以使用 HUMAnN2 软件基于 reads 直接进行功能组成定量。
物种丰度分析，使用软件 MetaPhlAn2 或 Kraken2 实现序列的物种分类。
差异统计分析，得到物种/基因/功能表后利用R语言或者STAMP等软件在物种，基因，功能等三个层面进行差异分析。

转录组

表观组

原理

甲基化的注释一般是看某些基因周边区域的甲基化状态/水平，相互验证。甲基化水平高的一般表达受抑制。通过biomart来注释对应的基因，预测甲基化影响效应。
癌症患者抑癌基因的promoter区域甲基化状态高（失活），癌症患者的cfDNA （液体活检）的平均甲基化率比正常人低。以此，通过甲基化率的变化来预测人体健康状态或年龄等。

DNA-表观基因组包括

DNA修饰之5mC：胞嘧啶5号碳结合甲基基团,第五种碱基

5mC参与维持遗传物质稳定性，调节基因表达，调节X染色体失活，参与等位基因和印记基因的形成，与胚胎发育，细胞全能性，癌症等有关。
甲基化失活，去甲基化恢复活性，CpG岛多为甲基化状态，游离的C多为去甲基化状态

DNA修饰之5hmC：胞嘧啶5号碳结合羟基集团，第六种碱基

5hmC是5mC去甲基化过程的中间产物
5hmC对DNA甲基化和转录有调节作用，与脑部疾病，细胞全能性，胚胎发育，癌症有关

DNA修饰之6mA：N6甲基腺嘌呤，腺嘌呤的6位氮原子结合一个甲基基团的现象

6mA是细菌基因组上最重要的表观修饰之一，主要参与细菌的防御机制
真核生物也有微量6mA的存在，与环境压力，胚胎发育有关

组蛋白修饰：组蛋白在相关酶作用下发生甲基化，乙酰化，磷酸化，泛素化

常见的组蛋白修饰包括：H3K27me3，H3K9me3，H3K4me3
组蛋白修饰：影响蛋白质构象，与DNA甲基化有互作关系，参与基因印记

染色质易近性/可接近性：染色质是否能够与DNA调节蛋白结合的特性

真核细胞，核小体是组成染色质的基本结构单位，DNA紧密缠绕在组蛋白八聚体上所形成的复合体
没有核小体结合的DNA区域与各种调节蛋白如转录因子的接近与结合，称为开放染色质区域
开放染色质区域易与各种调节蛋白，研究开放染色质区域鉴定特定时空的潜在调节区域，并推测临近基因的转录情况。

DNA结合蛋白

DNA结合蛋白对基因表达，染色质构象等生物过程有重要调节作用
DNA结合蛋白包括转录因子，聚合酶，增强子结合蛋白

RNA-表观转录组包括

RNA修饰之5mC：RNA胞嘧啶5号碳结合甲基集团

RNA 5mC修饰与蛋白翻译，RNA加工，应激反应有关

RNA修饰之m6A：RNA腺嘌呤A的六号氮原子结合甲基集团

m6A在调控基因表达，调控可变剪接，控制mRNA寿命和降解，影响翻译等方面重要作用

表观基因组

DNA甲基化常用技术

全基因组重亚硫酸盐测序WGBS-seq：重亚硫酸盐转化技术BS
单细胞全基因组重亚硫酸盐测序：BS
简单代表性重亚硫酸盐测序dRRBS-Seq：BS+酶切
液相杂交捕获重亚硫酸盐甲基化测序LHC-BS：BS+探针
甲基化DNA免疫共沉淀MeDIP-Seq：免疫共沉淀

DNA羟甲基化

氧化重亚硫酸盐测序oxBS-seq：BS+化学氧化
氧化-简化代表性重亚硫酸盐测序oxRRBS-seq：BS+化学氧化+酶切
羟甲基化DNA免疫共沉淀MeDIP-Seq：免疫共沉淀

DNA结合蛋白与组蛋白

染色质免疫共沉淀技术Chip-Seq：免疫共沉淀
染色质易近性：转座酶易接近染色质测序ATAC-seq：Tn5转座酶

建库方法区别：

WGBS一般是测全基因组的；RRBS用特定限制性内切酶（剪切位点CCGG）对特定区域（启动子，CpG岛等CG含量高的区域）进行剪切和分析；LHC-BS，利用设计的探针的方式捕获任何感兴趣的区域。

WGBS-可覆盖全基因组绝大部分C位点
RRBS 针对启动子，enhancer等调控区域
LHC-BS捕获任何感兴趣的基因组区域
scWGBS-针对单细胞/微量DNA进行检测

分析流程

Rawdata
质控（数据质量可视化fastqc，fastp，multiqc；过滤去低质量和接头Trimmomatic）
比对参考基因组（BSMAP，Bismark）
比对文件过滤（Duplicate samtools/picards；多重比对）
计算各C位点的甲基化率（转化率统计，比对软件自带脚本）
根据测序深度筛选得到甲基化图谱（pca：Psych/gmodel。层级聚类pvclust/hclust，基因元件甲基化水平特征）
差异分析【（差异甲基化位点分析DMC，DMC注释，DMC修饰基因的功能富集分析）（差异甲基化区域DMR，DMR注释，DMR修饰基因的功能富集分析）】

蛋白组

以蛋白质组为研究对象，研究细胞、组织或生物体蛋白质组成及其变化规律的科学。
蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征，包括蛋白质的表达水平，翻译后修饰，蛋白与蛋白相互作用等，由此获得蛋白质水平上的关于疾病发生，细胞代谢等过程的整体而全面的认识。
研究介绍：众多种疾病机理的阐明及攻克提供理论根据和解决途径。通过对正常个体及病理个体间的蛋白质组比较分析，我们可以找到某些“疾病特异性的蛋白质分子”，它们可成为新药物设计的分子靶点，或者也会为疾病的早期诊断提供分子标志。世界范围内销路最好的药物本身是蛋白质或其作用靶点为某种蛋白质分子。蛋白质组学的研究是生命科学进入后基因时代的特征。
基本策略：蛋白质组学集中于动态描述基因调节，对基因表达的蛋白质水平进行定量测定，鉴定疾病、药物对生命过程的影响，以及解释基因表达调控的机制. 已有20多年历史的蛋白质(多肽)谱和基因产物图谱技术的一种延伸. 多肽图谱依靠双向电泳(Two-dimensional gel electrophoresis, 2-DE)和进一步的图象分析；而基因产物图谱依靠多种分离后的分析，如质谱技术、氨基酸组分分析等.
大部分通过基因组测序而新发现的基因编码的蛋白质的功能都是未知的，而对那些已知功能的蛋白而言，它们的功能也大多是通过同源基因功能类推等方法推测出来的。
在蛋白质组研究中，二维电泳和质谱技术是黄金组合。蛋白质组学的研究试图比较细胞在不同生理或病理条件下蛋白质表达的异同，对相关蛋白质进行分类和鉴定。更重要的是蛋白质组学的研究要分析蛋白质间相互作用和蛋白质的功能。

研究内容

蛋白质研究
1.蛋白质鉴定：可以利用一维电泳和二维电泳并结合Western等技术，利用蛋白质芯片和抗体芯片及免疫共沉淀等技术对蛋白质进行鉴定研究。
2.翻译后修饰：很多mRNA表达产生的蛋白质要经历翻译后修饰如磷酸化，糖基化，酶原激活等。翻译后修饰是蛋白质调节功能的重要方式，因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重要作用。
3.蛋白质功能确定：如分析酶活性和确定酶底物，细胞因子的生物分析/配基-受体结合分析。可以利用基因敲除和反义技术分析基因表达产物-蛋白质的功能。另外对蛋白质表达出来后在细胞内的定位研究也在一定程度上有助于蛋白质功能的了解。Clontech的荧光蛋白表达系统就是研究蛋白质在细胞内定位的一个很好的工具。
4.对人类而言，蛋白质组学的研究最终要服务于人类的健康，主要指促进分子医学的发展。如寻找药物的靶分子。很多药物本身就是蛋白质，而很多药物的靶分子也是蛋白质。药物也可以干预蛋白质-蛋白质相互作用。
细胞亚细胞
不同发育、生长期和不同生理、病理条件下不同的细胞类型的基因表达是不一致的，因此对蛋白质表达的研究应该精确到细胞甚至亚细胞水平。激光捕获显微切割LCM(Laser Capture Microdissection)技术可以精确地从组织切片中取出研究者感兴趣的细胞类型，因此LCM技术实际上是一种原位技术。取出的细胞用于蛋白质样品的制备，结合抗体芯片或二维电泳-质谱的技术路线，可以对蛋白质的表达进行原位的高通量的研究。匀浆组织制备蛋白质样品的技术路线，其研究结论值得怀疑，因为组织匀浆后不同细胞类型的蛋白质混杂在一起，最后得到的研究数据根本无法解释蛋白质在每类细胞中的表达情况。虽然培养细胞可以得到单一类型细胞，但体外培养的细胞很难模拟体内细胞的环境，因此研究得出的结论也很难用于解释在体实际情况。因此在研究中首先应该将不同细胞类型分离，分离出来的不同类型细胞可以用于基因表达研究，包括mRNA和蛋白质的表达。
LCM技术获得的细胞可以用于蛋白质样品的制备。可以根据需要制备总蛋白，或膜蛋白，或核蛋白等，也可以富集糖蛋白，或通过去除白蛋白来减少蛋白质类型的复杂程度。相关试剂盒均有厂商提供。
二维电泳
蛋白质样品中的不同类型的蛋白质可以通过二维电泳进行分离。二维电泳可以将不同种类的蛋白质按照等电点和分子量差异进行高分辨率的分离。成功的二维电泳可以将2000到3000种蛋白质进行分离。电泳后对胶进行高灵敏度的染色如银染和荧光染色。如果是比较两种样品之间蛋白质表达的异同，可以在同样条件下分别制备二者的蛋白质样品，然后在同样条件下进行二维电泳，染色后比较两块胶。也可以将二者的蛋白质样品分别用不同的荧光染料标记，然后两种蛋白质样品在一块胶上进行二维电泳的分离，最后通过荧光扫描技术分析结果。
胶染色后可以利用凝胶图像分析系统成像，然后通过分析软件对蛋白质点进行定量分析，并且对感兴趣的蛋白质点进行定位。通过专门的蛋白质点切割系统，可以将蛋白质点所在的胶区域进行精确切割。接着对胶中蛋白质进行酶切消化，酶切后的消化物经脱盐/浓缩处理后就可以通过点样系统将蛋白质点样到特定的材料的表面（MALDI-TOF）。最后这些蛋白质就可以在质谱系统中进行分析，从而得到蛋白质的定性数据;这些数据可以用于构建数据库或和已有的数据库进行比较分析。
LCM-二维电泳-质谱技术路线是典型的一条蛋白质组学研究的技术路线，除此以外，LCM-抗体芯片也是一条重要的蛋白质组学研究的技术路线。即通过LCM技术获得感兴趣的细胞类型，制备细胞蛋白质样品，蛋白质经荧光染料标记后和抗体芯片杂交，从而可以比较两种样品蛋白质表达的异同。Clontech最近开发了一张抗体芯片，可以对378种膜蛋白和胞浆蛋白进行分析。该芯片同时配合了抗体芯片的全部操作过程的重要试剂，包括蛋白质制备试剂，蛋白质的荧光染料标记试剂，标记体系的纯化试剂，杂交试剂等。
对于蛋白质相互作用的研究，酵母双杂交和噬菌体展示技术无疑是很好的研究方法。Clontech开发的酵母双杂交系统和NEB公司开发的噬菌体展示技术可供研究者选用。

蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征，包括蛋白质的表达水平，翻译后的修饰，蛋白与蛋白相互作用等，由此获得蛋白质水平上的关于疾病发生，细胞代谢等过程的整体而全面的认识。是系统地研究生物学规律和机制的成熟并且有效的工具。

以质谱为基础的定量蛋白质组学，主要可以分成两类，第一种是稳定同位素标记的定量蛋白质组学，比如iTRAQ；第二种是非标记的定量蛋白质组学技术，比如label-free。iTRAQ定性定量结果更为准确，通量较高可同时标记2-8个样本，适合小样本量的项目；label-free检测肽段范围广，单次可鉴定和定量较多的蛋白质，但由于样品单独进行质谱检测所以重现性较低，在大量算法的基础上更适合大量样本的蛋白组研究。

蛋白质组学和转录组学都是系统地研究生物学规律和机制的成熟并且有效的工具，由于生命体是一个多层次、多功能的复杂结构体，所以单一组学技术不能全景地揭示生命活动的本质规律。采用蛋白质组学和转录组学技术同步检测蛋白质及RNA的整体状态，并且将这两个组学的数据整合起来分析，不仅能在蛋白质水平及转录水平两个不同层次上透视生命活动的规律与本质，还能揭示二者之间的相互调控作用或者关联。

代谢组

代谢组是指生物体内源性代谢物质的动态整体。而传统的代谢概念既包括生物合成，也包括生物分解，因此理论上代谢物应包括核酸、蛋白质、脂类生物大分子以及其他小分子代谢物质。但为了有别于基因组、转录组和蛋白质组，代谢组之前只涉及相对分子质量约小于1000的小分子代谢物质，现在以上几种物质均有囊括。
代谢组学检测的技术路线通常是首先使用液相色谱（气相色谱）在一定压力下，代谢物由于分子量和电荷不同，从而在塔板柱中流动的速度不同，从而将不同分子量的代谢物分离开，而后串联质谱仪，根据分子的荷质比不同从而在质谱仪中的飞行偏转角度不同，导致落点不同，根据不同的落点信息，与数据库进行比对，从而确定代谢物的种类。故而在代谢组学里面，数据库是否完备就成为鉴定代谢物种类的关键。通常做法是使用标准代谢物进行液质联用，记录其信息形成数据库。然后待测样本在进行液质联用的时候就会形成属于自己特有的峰形，与数据库比对后就可以确定其种类及相对含量。

代谢组学的数据分析思路大致套路：1.描述检测代谢物种类；2.PCA组成分分析确定代谢物在相同分组中的稳定性（即组内重复性和组间差异性）；3.筛选差异代谢物；4.差异代谢物所分布的信号转导通路（PATHWAY）；5.差异代谢物随时间或大于阶段的变化规律分析；6.分子标志物筛选。