multiMiR:探索 microRNA 靶基因及关联的强大工具

multiMiR:探索 microRNA 靶基因及关联的强大工具

一、引言

1.1 研究背景

微小核糖核酸(MicroRNA,miRNA)是一类内生的、长度约 20 - 24 个核苷酸的小 RNA,在真核生物中广泛存在。自 1993 年在线虫中首次发现 lin - 4 miRNA 以来,miRNA 的研究取得了长足的进展。2024 年诺贝尔生理学或医学奖授予了发现 miRNA 及其在转录后基因调控中作用的科学家,这一事件更是将 miRNA 研究推向了新的高度。

miRNA 在基因表达调控中扮演着关键角色,它们通过与靶基因 mRNA 的互补配对,抑制 mRNA 的翻译过程或者促使其降解,从而实现对基因表达的精细调控。这种调控机制参与了生物体的各种生理和病理过程,从胚胎发育、细胞增殖与分化、凋亡,到肿瘤的发生发展、心血管疾病、神经系统疾病等。例如,在肿瘤研究中,许多 miRNA 被发现具有抑癌或促癌作用,通过调控相关靶基因影响肿瘤细胞的增殖、迁移和侵袭能力 。

在 miRNA 研究中,准确获取其靶基因是深入了解其功能和作用机制的关键。传统上,获取 miRNA 靶基因的方法主要包括基于序列互补的预测算法和实验验证。基于序列互补的预测算法,如 TargetScan、miRanda 等,根据 miRNA 种子序列与靶基因 mRNA 3’UTR 区域的互补性来预测靶基因,但这类方法存在较高的假阳性率,不同算法预测结果差异较大,导致后续实验验证工作量巨大。实验验证方法,如荧光素酶报告基因实验、RNA 免疫沉淀(RIP)实验等,虽然准确性高,但实验操作复杂、成本高、通量低,难以大规模应用 。

为了解决这些问题,multiMiR 应运而生。multiMiR 是一个集成了多个 microRNA 靶基因数据库的 R 包,整合了验证过的 microRNA 靶基因数据库(如 miRecords、miRTarBase 和 TarBase)、预测的 microRNA 靶基因数据库(如 DIANA - microT、ElMMo、MicroCosm 等)以及 microRNA 疾病 / 药物数据库(如 miR2Disease、Pharmaco - miR VerSe 和 PhenomeriR),为 miRNA 靶基因的获取和分析提供了一个统一的接口。

1.2 研究目的

本研究旨在深入探讨 multiMiR 在 miRNA 研究中的应用,通过利用 multiMiR 提供的丰富数据和便捷功能,优化 miRNA 靶基因获取及相关分析的流程。具体而言,将运用 multiMiR 查询特定 miRNA 的靶基因,分析这些靶基因的功能和参与的生物学通路;研究 miRNA 与疾病、药物之间的关联,探索其在疾病诊断、治疗和药物研发中的潜在应用价值;同时,评估 multiMiR 在提高 miRNA 研究效率和准确性方面的作用,为相关领域的科研工作提供有力的工具和方法支持。

二、multiMiR 全面剖析

2.1 定义与基本概念

multiMiR 是一个功能强大的 R 包,其核心价值在于集成了多个 microRNA 靶基因数据库,为 miRNA 研究提供了一站式的数据资源整合平台 。它打破了不同数据库之间的壁垒,将验证过的 microRNA 靶基因数据库、预测的 microRNA 靶基因数据库以及 microRNA 疾病 / 药物数据库有机地结合在一起。例如,在验证过的数据库中,miRecords、miRTarBase 和 TarBase 包含了通过实验验证的 miRNA 与靶基因的相互作用关系,这些数据的准确性和可靠性为 miRNA 研究提供了坚实的基础;预测的数据库如 DIANA - microT、ElMMo、MicroCosm 等,基于算法预测 miRNA 的靶基因,虽然存在一定的假阳性,但能够为研究提供更广泛的潜在靶基因信息,拓宽研究思路 。这种整合多种类型数据库的特性,使得研究人员无需在多个独立的数据库中进行繁琐的检索和筛选,大大提高了研究效率。

2.2 功能特点

2.2.1 统一查询接口

multiMiR 提供了统一的查询接口,主要通过 get_multimir () 函数实现。这一函数允许用户检索预测和验证的 microRNA 靶基因相互作用及其与疾病和药物的关联。用户只需在 R 环境中调用该函数,并按照要求设置参数,即可轻松获取所需信息。例如,当研究人员想要查询人类(hsa)中 hsa - miR - 18a - 3p 的验证靶基因时,只需执行以下代码:result <- get_multimir (mirna = ‘hsa - miR - 18a - 3p’, org = ‘hsa’, table = ‘validated’) 。这种统一的查询方式,避免了用户在不同数据库中使用不同查询语法和界面的困扰,使得数据获取过程更加简洁高效,降低了研究的技术门槛 。

2.2.2 多数据库集成

如前所述,multiMiR 集成了丰富的数据库资源。在验证数据库方面,miRecords 整合了多个已发表研究中的 miRNA 靶基因验证数据,提供了较为全面的实验验证信息;miRTarBase 则专注于收集经过实验验证的 miRNA - 靶基因对,且不断更新,以反映最新的研究成果;TarBase 同样致力于提供可靠的实验验证数据,为研究人员确定 miRNA 的真实靶基因提供了有力支持 。在预测数据库中,DIANA - microT 利用独特的算法,基于 miRNA 与靶基因 mRNA 的互补性进行预测,考虑了多种影响因素,提高了预测的准确性;ElMMo 从进化保守性等角度出发,预测 miRNA 的靶基因,为研究提供了不同视角的预测结果;MicroCosm 则结合了多种预测方法和数据来源,提供了较为综合的预测信息 。此外,在疾病 / 药物数据库中,miR2Disease 专注于 miRNA 与疾病的关联,收集了大量与疾病相关的 miRNA 数据,有助于研究人员探索 miRNA 在疾病发生发展中的作用;Pharmaco - miR VerSe 和 PhenomeriR 则分别关注 miRNA 与药物的相互作用以及 miRNA 在表型相关研究中的信息,为药物研发和疾病治疗研究提供了有价值的数据 。

2.2.3 灵活查询参数

multiMiR 支持灵活的查询参数设置,以满足不同用户的多样化需求。在输入方面,mirna 参数支持多种格式,既可以是成熟 miRNA 的访问号(例如 “MIMAT0000072”),也可以是成熟 miRNA ID(例如 “hsa - miR - 199a - 3p”),或者两者的组合(例如 c (“MIMAT0000065”, “hsa - miR - 30a - 5p”)),并且字符大小写不敏感 。这使得用户可以根据自己已有的数据格式,方便地进行查询。此外,mirna 参数还支持列表格式,比如可以将 DESeq 得到的差异 miRNA 名称列直接输入到参数中,实现批量查询差异 miRNA 的靶基因,大大提高了分析效率 。org 参数目前支持人(hsa)、小鼠(mmu)和大鼠(rno),虽然暂时不支持其他物种,但对于常见的模式生物研究已经足够覆盖,为相关领域的研究提供了针对性的支持 。在查询时,用户还可以根据需要设置其他参数,如选择不同的数据库表(table 参数)进行查询,包括 “validated”(验证数据)、“predicted”(预测数据)、“disease.drug”(疾病 / 药物相关数据)等,从而获取特定类型的信息,实现精准查询 。

三、multiMiR 使用教程

3.1 安装与依赖

在开始使用 multiMiR 之前,确保您的 R 环境中已经安装了 BiocManager。如果尚未安装,可以通过以下命令进行安装:

if (!requireNamespace("BiocManager", quietly = TRUE))

&#x20; install.packages("BiocManager")

安装完成后,使用 BiocManager 来安装 multiMiR 包:

BiocManager::install("multiMiR")

通过上述步骤,即可完成 multiMiR 包的安装,为后续的操作做好准备。

3.2 基本操作流程

3.2.1 载入包

安装完成后,在 R 环境中载入 multiMiR 包,以便使用其中的函数和数据。载入包的代码如下:

library(multiMiR)

通过这行代码,就可以调用 multiMiR 包中的各种功能,开启对 miRNA 靶基因数据的查询和分析之旅 。

3.2.2 查询 microRNA 靶基因

multiMiR 的主要功能通过 get_multimir () 函数实现,该函数允许用户检索预测和验证的 microRNA 靶基因相互作用及其与疾病和药物的关联 。以下是使用该函数查询人类(hsa)中 hsa - miR - 18a - 3p 的验证靶基因的示例:

result <- get\_multimir(mirna = 'hsa - miR - 18a - 3p', org = 'hsa', table = 'validated')

在这个示例中,mirna 参数指定了要查询的 miRNA 为 hsa - miR - 18a - 3p;org 参数指定了物种为人类(hsa);table 参数指定了查询的数据库表为 “validated”,即验证过的靶基因数据 。mirna 参数支持多种输入格式,既可以是成熟 miRNA 的访问号(例如 “MIMAT0000072”),也可以是成熟 miRNA ID(例如 “hsa - miR - 199a - 3p”),或者两者的组合(例如 c (“MIMAT0000065”, “hsa - miR - 30a - 5p”)),并且字符大小写不敏感 。此外,mirna 参数还支持列表格式,比如可以将 DESeq 得到的差异 miRNA 名称列直接输入到参数中,实现批量查询差异 miRNA 的靶基因,大大提高了分析效率 。

3.2.3 查看结果

get_multimir () 函数返回一个 S4 对象,其中包含了查询数据和相关的元数据 。这种格式不太方便直接转换为数据框,但可以使用 @操作符来访问这些数据 。以下是查看查询结果数据和摘要信息的示例:

\# 查看数据

head(result@data)

\# 查看摘要信息

result@summary

通过 head (result@data),可以查看查询结果数据的前几行,快速了解数据的结构和内容;通过 result@summary,可以查看查询结果的摘要信息,包括查询的参数设置、返回的数据行数等,有助于对查询结果进行整体把握 。

3.2.4 过滤和选择数据

为了更方便地对查询结果进行分析,常常需要过滤和选择特定的数据列 。可以使用 select () 函数来实现这一功能 。以下是选择特定列数据的示例:

\# 选择特定列

selected\_data <- select(result, columns = c("mature\_mirna\_id", "target\_symbol"))

head(selected\_data)

在这个示例中,select () 函数从查询结果 result 中选择了 “mature_mirna_id” 和 “target_symbol” 两列数据,并将结果存储在 selected_data 中 。通过 head (selected_data) 可以查看选择后的前几行数据,方便进行后续分析 。这种灵活的数据选择方式,使得研究人员能够根据自己的需求,快速提取关键信息,提高数据分析的效率 。

3.2.5 查询疾病和药物关联

multiMiR 还可以用来查询与特定疾病或药物相关的 microRNA 。以下是查询与 “cisplatin” 相关的 microRNA 的示例:

\# 查询与“cisplatin”相关的microRNA

drug\_result <- get\_multimir(disease.drug = 'cisplatin', table = 'disease.drug')

head(drug\_result@data)

在这个示例中,disease.drug 参数指定了要查询的药物为 “cisplatin”;table 参数指定了查询的数据库表为 “disease.drug”,即疾病 / 药物相关的数据 。通过这种方式,可以获取与特定药物相关的 miRNA 信息,为研究药物作用机制和 miRNA 在疾病治疗中的潜在应用提供线索 。例如,在肿瘤治疗研究中,了解与顺铂(cisplatin)相关的 miRNA,有助于探索顺铂治疗肿瘤的分子机制,以及寻找潜在的治疗靶点和生物标志物 。

3.2.6 列出数据库内容

如果想要了解 multiMiR 数据库中包含哪些 microRNA、基因、药物和疾病,可以使用 list_multimir () 函数 。以下是列出前 10 个 microRNA 和前 10 个基因的示例:

\# 列出前10个microRNA

miRNAs <- list\_multimir("mirna", limit = 10)

head(miRNAs)

\# 列出前10个基因

genes <- list\_multimir("gene", limit = 10)

head(genes)

在这个示例中,list_multimir () 函数的第一个参数指定了要列出的内容类型,“mirna” 表示列出 microRNA,“gene” 表示列出基因;limit 参数指定了列出的数量,这里设置为 10 。通过这种方式,可以快速了解数据库中包含的相关信息,为进一步的查询和分析提供参考 。例如,在开始研究之前,先列出数据库中的部分 miRNA 和基因,有助于确定研究方向和目标,避免盲目查询 。

3.3 高级用法

3.3.1 切换数据库版本

multiMiR 允许用户切换到不同的数据库版本,以满足不同的研究需求 。在进行数据库版本切换之前,首先需要查看可用的数据库版本 。可以使用以下代码实现:

\# 查看可用的数据库版本

db\_versions <- multimir\_dbInfoVersions()

db\_versions

运行上述代码后,会返回一个包含可用数据库版本信息的数据框,其中包括版本号、更新日期等信息 。根据研究需求,选择合适的数据库版本进行切换 。例如,要切换到版本 “2.0.0”,可以使用以下代码:

\# 切换到特定版本

multimir\_switchDBVersion(db\_version = "2.0.0")

通过这种方式,能够根据不同的研究目的和数据需求,灵活选择合适的数据库版本,获取更符合要求的数据 。例如,某些研究可能需要使用较旧版本的数据库,以保持与之前研究的一致性;而另一些研究则可能需要使用最新版本的数据库,以获取最新的研究成果和数据 。

3.3.2 直接查询数据库

对于高级用户,multiMiR 提供了直接使用 SQL 查询数据库的功能 。这一功能允许用户根据自己的需求,编写复杂的 SQL 查询语句,实现更精准的数据查询 。以下是一个直接执行 SQL 查询的示例:

\# 直接执行SQL查询

query <- "SELECT \* FROM mirna WHERE mature\_mirna\_id = 'hsa - miR - 18a - 3p'"

direct\_result <- search\_multimir(query)

head(direct\_result)

在这个示例中,query 变量定义了一个 SQL 查询语句,该语句从 “mirna” 表中查询 “mature_mirna_id” 为 “hsa - miR - 18a - 3p” 的所有记录 。然后,使用 search_multimir () 函数执行这个查询,并将结果存储在 direct_result 中 。通过 head (direct_result) 可以查看查询结果的前几行 。这种直接查询数据库的方式,为熟悉 SQL 语言的用户提供了更大的灵活性和控制权,能够满足复杂的数据查询需求 。例如,在进行大规模的 miRNA 靶基因研究时,可能需要结合多个表的数据进行复杂的关联查询,使用直接查询数据库的功能就可以轻松实现 。

四、应用案例深度解读

4.1 乳腺癌研究实例

4.1.1 研究背景与目的

乳腺癌是女性最常见的恶性肿瘤之一,严重威胁着女性的健康。近年来,随着对乳腺癌研究的不断深入,发现垂体瘤转化基因 1(PTTG1)在乳腺癌的发生发展中可能扮演重要角色 。PTTG1 作为一种癌基因,在多种肿瘤中呈现高表达状态,并且能够作为癌症侵袭转移的生物标志物 。然而,PTTG1 在乳腺癌中的具体表达水平以及它与患者预后之间的关系尚不明确 。本研究旨在深入探究乳腺癌中 PTTG1 的表达情况与患者预后的关联,以及其对免疫细胞浸润的影响,进而初步揭示 PTTG1 在乳腺癌发生发展过程中的潜在作用机制 。

4.1.2 multiMiR 的应用过程

在该研究中,首先利用 Oncomine 4.5 数据库和 Kaplan - Meier Plotter 数据库对乳腺癌组织中 PTTG1 的表达情况及其预测患者预后的价值进行了分析 。通过 Coexpedia 筛选出 PTTG1 的共表达基因,并借助 GO 数据库和 KEGG 数据库分析其共表达基因富集的通路情况 。随后,运用 TIMER 数据库分析乳腺癌中 PTTG1 基因表达水平与免疫细胞浸润的关系 。在探索 PTTG1 及其共表达基因的调控机制时,采用了 multiMiR 的 R 语言包 。具体来说,研究人员将 PTTG1 及其共表达基因的信息输入到 multiMiR 中,利用其整合的多个数据库资源,预测与这些基因相互作用的 microRNA 。最后,使用 Cytoscape 软件对预测得到的 microRNA 与 PTTG1 及其共表达基因之间的相互作用网络进行可视化展示,以便更直观地分析它们之间的关系 。

4.1.3 研究成果与意义

研究结果显示,PTTG1 在乳腺癌组织中的表达显著升高,并且高表达 PTTG1 的患者预后明显差于低表达 PTTG1 的患者(P<0.001) 。对 PTTG1 基因及其共表达基因集进行分析发现,GO 功能主要富集在核分裂、细胞器分离及染色体分离上,KEGG 通路富集则集中在细胞周期、减数分裂、人类 T 淋巴细胞白血病病毒 Ⅰ 型(HTLV - 1)感染和 p53 信号转导通路上 。此外,PTTG1 的表达水平与 CD4+Th1 细胞(r = 0.490,P = 3.52e - 61)、CD4+Th2 细胞(r = 0.765,P = 3.7e - 192)、巨噬细胞(r = 0.308,P = 2.8e - 23)、B 细胞(r = 0.228,P = 3.69e - 13)和中性粒细胞(r = 0.121,P = 1.27e - 04)的浸润水平呈明显正相关,与 CD8+T 细胞浸润水平呈明显负相关(r = - 0.198,P = 3.16e - 10) 。通过 multiMiR R 语言数据包分析,发现共有 17 个共同靶向 PTTG1 及其共表达基因的 microRNA 。

这些研究成果表明,PTTG1 在乳腺癌组织高表达并与患者的不良预后相关,PTTG1 在乳腺癌中的表达水平与免疫浸润密切相关 。PTTG1 高表达可能通过调控细胞周期和 p53 信号通路,增强肿瘤的增殖和侵袭能力,进而导致乳腺癌的不良预后 。这提示 PTTG1 可以作为乳腺癌潜在的诊断和预后标记物 。而在整个研究过程中,multiMiR 发挥了关键作用,它帮助研究人员快速准确地预测出与 PTTG1 及其共表达基因相互作用的 microRNA,为深入研究 PTTG1 在乳腺癌中的调控机制提供了重要线索,也为后续开发基于 microRNA 的乳腺癌治疗策略奠定了基础 。

4.2 肾移植排斥反应研究实例

4.2.1 研究背景与目的

肾移植是治疗终末期肾病的有效方法,能够显著改善患者的生活质量 。然而,排斥反应仍然是影响移植肾存活的最主要因素 。随着肾移植术后新型免疫抑制药的应用,1 年移植肾存活率虽可达 95%,但移植肾长期存活率依旧没有明显改善 。在排斥反应期间,多种细胞浸润移植肾,目前研究主要集中在适应性免疫细胞,而越来越多证据表明固有免疫中的巨噬细胞与移植肾功能和临床预后密切相关 。巨噬细胞 M1 亚型属于促炎细胞亚群,已被证明与移植物预后不良密切相关 。但目前对于调控 M1 亚型极化及募集在移植肾中的具体机制尚不清楚 。因此,本研究旨在鉴定肾移植术后排斥反应中巨噬细胞 M1 亚型表达的相关基因,并构建风险模型预测移植肾存活,以深入了解这些基因如何参与移植肾损伤并影响预后,为早期对高风险受者干预提供依据 。

4.2.2 multiMiR 的应用过程

研究人员首先在基因表达综合(GEO)数据库下载肾移植术后的 GSE36059 及 GSE21374 数据集 。其中 GSE36059 数据集包含发生排斥反应和稳定移植物的样本,用于进行加权基因共表达网络分析(WGCNA)和差异分析,筛选差异表达的巨噬细胞 M1 亚型相关差异表达基因(M1 - DEG) 。随后将 GSE21374 数据集(包含了移植物丢失的随访数据)按照 7∶3 拆分为训练集以及验证集 。在训练集中使用最小绝对收缩和选择算法(LASSO)筛选变量构建多因素 Cox 模型,并评估模型预测移植物存活的能力 。

在探索与预后基因互作的微小核糖核酸(miRNA)时,使用了 multiMiR 。具体步骤为,将筛选得到的预后基因信息输入到 multiMiR 中,利用其丰富的数据库资源和高效的算法,预测与这些预后基因相互作用的 miRNA 。通过这种方式,研究人员能够获取可能参与调控移植肾排斥反应相关基因表达的 miRNA 信息,为进一步研究肾移植排斥反应的分子机制提供了重要线索 。

4.2.3 研究成果与意义

通过一系列分析,在 GSE36059 数据集中,筛选得到 14 个 M1 - DEG 。在 GSE21374 数据集中,使用 LASSO - Cox 回归筛选出 Toll 样受体 8(TLR8)、Fcγ 受体 1B(FCGR1B)、BCL2 相关蛋白 A1(BCL2A1)、组织蛋白酶 S(CTSS)、鸟苷酸结合蛋白 2(GBP2)及半胱氨酸天冬氨酸蛋白酶招募域家族成员 16(CARD16),基于这 6 个 M1 - DEG 构建多因素 Cox 模型 。该风险模型在训练集中预测 1 年及 3 年移植物存活的受试者工作特征曲线下面积(AUC)分别为 0.918 和 0.877,在验证集中预测 1 年及 3 年移植物存活的 AUC 分别为 0.765 及 0.736,显示出良好的预测能力 。

免疫浸润分析表明,高风险组静息及活化的 CD4 + 记忆 T 细胞、γδT 细胞、巨噬细胞 M1 亚型浸润增多(均为 P<0.05) 。高风险组人类白细胞抗原(HLA)Ⅰ 类基因表达上调 。基因集富集分析(GSEA)表明,高风险组免疫反应及移植物排斥反应富集 。同时,通过 multiMiR 预测发现 CTSS 与 8 个 miRNA 相互作用、BCL2A1 和 GBP2 与 3 个 miRNA 相互作用、FCGR1B 与 1 个 miRNA 相互作用 。

本研究基于 6 个 M1 - DEG 构建的预后风险模型对于预测移植肾存活具有良好的表现,为早期对高风险受者干预提供了依据 。multiMiR 在研究中起到了推动作用,它帮助研究人员发现了与预后基因相互作用的 miRNA,为深入理解肾移植排斥反应的分子调控机制提供了新的视角,有助于开发新的诊断和治疗方法,提高移植肾的存活率和患者的生活质量 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值