phylogenetic-优快云博客

原创 tRAP（tRNA 活性预测器）

摘要 tRAP (tRNA 活性预测器) 是一个基于 DNA 序列预测 tRNA 基因表达活性的分类工具。该程序提供完整版和简化版两种流程：完整版依赖 Cactus 比对和 HAL 格式，需要安装多种生物信息学软件；简化版则仅需基因组序列即可快速获得准确预测。主要步骤包括：tRNAscan-SE 基因注释、RNAfold 二级结构分析、序列特征提取和机器学习分类。程序提供了详细的安装指南和分步操作说明，支持从 HAL/MAF 格式处理到最终分类的全流程。最新版本已包含 29 种胎盘哺乳动物的预测结果。该工具

2025-08-13 17:39:02 721

原创 uncalled4

摘要 uncalled4 工具提供两种主要功能： align 命令：基于 basecall 比对结果，使用动态时间规整（DTW）算法进行信号对齐。支持多种参数配置，包括参考基因组输入（--ref）、并行处理（-p）、输出格式选择（BAM/TSV/eventalign）、归一化模式（--norm-mode）及 DTW 代价函数（--cost-fn）。关键参数包括带宽（--band-width）、偏移量（--band-shift）及对齐算法（--method），适用于 DNA/RNA 数据。 convert 命

2025-08-11 10:44:06 996

原创 gffread

gffread v0.12.7是一款处理GFF/GTF/BED格式文件的工具，主要用于过滤、转换和聚类基因转录本数据。它支持多种操作模式，包括按ID筛选转录本、丢弃不符合条件的转录本（如过长内含子或非规范剪接位点）、提取序列（外显子/CDS/蛋白质）以及格式转换（GFF3/GTF/BED/TLF）。工具提供丰富的选项控制输出内容，如保留特定属性、调整终止密码子、合并冗余转录本等。核心功能需依赖基因组FASTA文件，支持流式处理和大规模数据聚类。输出结果可用于下游生物信息学分析，如基因注释验证和转录本结构研究

2025-06-12 16:38:29 1024

原创 gtf2gtf

标签: 基因组学基因集 GTF 操作。

2025-06-09 00:28:34 565

原创 RSCUcaller

RSCUcaller是一个R包，用于分析DNA序列的相对同义密码子使用频率(RSCU)。该工具可以从FASTA格式的DNA序列中计算RSCU值，支持多种遗传密码表(包括标准密码和线粒体等特殊遗传密码)。安装方法包括GitHub和未来将提供的Bioconductor版本。使用前需要准备包含序列路径和样本名的表格，并指定输出目录。主要功能函数get_RSCU()和get_RSCU_other()可实现RSCU计算和分析，支持生成可视化图表和统计检验。该工具适用于密码子使用模式研究，特别是针对不同物种或特殊遗传系

2025-06-02 22:25:36 1211

原创 Bismark甲基化提取器

Bismark甲基化提取器是一个用于处理Bismark亚硫酸氢盐映射器生成的比对结果文件（BAM/CRAM/SAM格式）的工具，能够提取单个胞嘧啶的甲基化信息。该工具根据胞嘧啶的上下文（CpG、CHG、CHH等）和链特异性（OT、CTOT、OB、CTOB）生成多个输出文件，文件格式为制表符分隔的文本。用户可以通过多种选项控制输出，如是否合并非CpG上下文、是否压缩输出文件、是否忽略读取的特定部分等。此外，工具还支持并行处理以加快提取速度，并提供了生成BedGraph文件的选项，便于后续分析。Bismark甲

2025-05-15 16:15:23 1050

原创 Bismark

Bismark是一款用于亚硫酸氢盐测序数据比对和甲基化调用的工具，支持FastA和FastQ格式的输入文件。它将读取序列转换为亚硫酸氢盐处理的正向或反向链版本，并与参考基因组的亚硫酸氢盐处理索引进行比对。Bismark默认使用Bowtie 2或HISAT2进行比对，并支持并行处理以提高效率。输出结果以BAM/SAM格式保存，包含比对信息和甲基化状态。Bismark提供了多种命令行选项，包括输入文件类型、比对参数、并行处理设置以及输出格式控制，用户可以根据需求灵活配置。

2025-05-15 15:56:40 1278

原创 WarpDemuX

WarpDemuX是一款用于纳米孔直接RNA测序的超快速、高精度接头条形码标记和解复用工具。目前支持SQK-RNA002和SQK-RNA004两种化学试剂。

2025-05-08 16:28:47 640

原创 ViewBS 的工作流程

ViewBS 提供多个顶级命令，用于确定所需和最优参数。这些命令可分为两部分：甲基化报告和功能区域的数据可视化。在甲基化报告部分中，提供多个顶级命令，可以生成关于读取覆盖度、甲基化水平分布、全局甲基化水平等报告。在功能区域可视化部分中，用户应首先提供感兴趣区域。这些区域可以是功能元素，如基因、转座子（TE）或差异甲基化区域（DMR）。用户还应提供甲基化信息，这些信息是 BS-seq 对齐器（如 Bismark）的输出结果。

2025-04-22 23:02:56 1158

原创 SingleMod

支持训练新模型以检测其他motif的m6A或其他修饰类型。

2025-03-25 23:51:35 1228

原创 ModiDeC

数据管理”（或数据创建）GUI的创建是为了让用户能够生成个性化的训练数据，用于ModiDeC的进一步步骤和重新训练神经网络。图中显示了三个部分，每个部分都有多个输入变量。在本教程中，我们将解释如何正确生成您自己的数据集，以便为您的特定问题训练ModiDeC。首先，我们将介绍可以在GUI中输入的变量。在文件的第二部分，我们将提供一个示例，展示创建训练数据的步骤。

2025-03-06 12:02:53 655

原创 modPhred

modPhred是一个用于检测、注释和可视化DNA/RNA修饰的管道。管道由四个步骤/模块组成：modEncode：在FastQ中编码修饰概率（mod_encode.py）modAlign：构建比对，保留BAM中的修饰信息（mod_align.py）modReport：提取RNA修饰信息（bedGraph）和QC报告（mod_report.py）a. 绘制QC统计、配对图和维恩图（mod_plot.py），b. 修饰的共现（mod_correlation.py）

2025-03-05 15:52:23 724

原创 m6ABasecaller

m6ABasecaller 是一个修饰感知的RNA碱基识别模型，能够预测5种核苷（A、C、G、U、m6A），而传统的RNA碱基识别模型只能输出4种核苷（A、C、G、U）。该RNA碱基识别模型可以直接与Guppy一起使用。为了提取m6A修饰位点和频率，可以将其输入到ModPhred，该工具有助于存储和分析纳米孔测序数据集中的RNA修饰数据。该仓库包含使用m6A修饰感知RNA碱基识别模型（我们简称为）的命令行示例和脚本。

2025-02-26 17:23:46 897 1

原创 DInoPORE：通过纳米孔测序直接检测天然RNA中的肌苷

DInoPORE 是一种计算方法，用于从直接RNA测序数据中检测腺苷到肌苷（A-to-I）的编辑位点，并估计其编辑率。该GitHub仓库包含运行DInoPORE的脚本。希望使用DInoPORE架构训练自己模型的用户也可以找到训练脚本（见下文训练路径部分）。可以在DInoPORE的Code Ocean胶囊中找到示例数据集，以说明管道的运行方式以及小样本的典型运行时间（DOI: 10.24433/CO.2180901.v1）。

2025-02-26 15:43:39 983

原创 Bonito

Bonito 是一个用于牛津纳米孔测序读段的开源研究级碱基识别器。对于除碱基识别器训练或方法开发之外的任何用途，请使用。Bonito 支持输出对齐/未对齐的文件。

2025-02-26 15:08:12 1003

原创 DeepEdit: 使用Nanopore直接RNA测序进行A-to-I RNA编辑事件的单分子检测

RNA编辑通过表观遗传方式调控基因组功能。Nanopore测序仪记录的电信号容易受到碱基修饰的影响。我们提出了DeepEdit，一种用于单分子检测RNA编辑事件的神经网络模型。我们使用S.pombe数据集训练了DeepEdit，但它在H.sapiens数据集中仍然表现良好。因此，我们鼓励您在更多物种中使用我们的工具。与之前的方法不同，DeepEdit主要有两个优势——长读长和单分子分辨率。

2025-02-20 19:12:36 931

原创 NAGATA

NAGATA 使用纳米孔直接RNA测序读取与基因组比对的结果来生成转录组注释。NAGATA 通过解析读取比对（排序的BAM文件）来识别转录单元（TUs），内部将BAM文件转换为BED12格式，然后按“起始”和“结束”位置进行数字排序，并将具有相似“起始”和“结束”坐标的比对分组。这是逐行进行的，只有当给定行的比对坐标与前一行相差超过用户定义的阈值（转录起始位点（TSS）为20 nt，切割和聚腺苷酸化位点（CPAS）为50 nt）时，才会定义一个新的TU。

2025-01-14 14:50:08 411

原创 Trim_Galore_User_Guide

是一个强大的工具，专门用于高通量测序数据的质量控制和适配器修剪。它特别适用于 RRBS（Reduced Representation Bisulfite Sequencing）数据，但也适用于其他类型的测序数据。通过一系列的修剪步骤，Trim Galore!能够有效去除低质量碱基、适配器序列和短序列，从而提高后续分析的准确性和可靠性。

2024-12-23 19:34:29 1362

原创 trim_galore

更多信息请参见：https://github.com/FelixKrueger/TrimGalore/issues/127 或 https://support.illumina.com/bulletins/2020/06/trimming-t-overhang-options-for-the-illumina-rna-library-prep-wo.html。这是一种特殊的双端数据操作模式，例如 IMPLICON 方法所需的模式，其中 UMI 序列从读取 2 的开头转移到两个读取的读取 ID 中。

2024-12-23 16:27:15 1424

原创 Arioc

请参阅 Arioc 用户指南（Arioc.guide.pdf）以获取有关 Arioc 编码器和比对器组件的详细信息，以及有关所需硬件和系统软件的信息。

2024-12-23 11:08:04 921

原创 AmpliconSuite-pipeline

AmpliconSuite-pipeline 是一个多线程支持的端到端工具，用于和 AmpliconClassifier，以支持从配对端全基因组测序数据分析局部拷贝数扩增（如ecDNA或BFB）。AmpliconSuite-pipeline 可以在数据准备过程的任何中间阶段启动，并且可以调用 AmpliconArchitect 和下游工具 AmpliconClassifier。AmpliconSuite-pipeline 以前被称为 “PrepareAA”。

2024-12-19 16:41:30 1258

原创 CReSIL: 从长读长序列中准确识别染色体外环状DNA

要运行 CReSIL 以识别 eccDNA 而不进行序列校正和变异检测步骤 - 跳过模式（从修剪步骤开始）要使用 CReSIL 识别全基因组长读长（WGLS）测序数据中的 eccDNA（从修剪步骤开始）要运行 CReSIL 以在宽松模式下识别 eccDNA（从修剪步骤开始）供用户通过 CReSIL 管道示例并用于 CReSIL 基准测试。有关每个 eccDNA 的映射读长的更多详细信息，请参阅。中的 eccDNA 文件夹。

2024-12-19 15:04:20 458

原创 R2Dtool

R2Dtool 是一组基因组学工具，用于处理、整合和可视化映射到转录本的 RNA 特征数据。转录本映射的数据：R2Dtool 执行转录本映射的 RNA 特征到其相应基因组坐标的提升。转录本映射的位点：R2Dtool 以同工型特异性的方式注释转录本特异的元转录坐标以及到注释的转录本地标的绝对和相对距离。同工型感知的 RNA 特征分布：R2Dtool 引入同工型感知的图和图，以研究 RNA 特征在注释的 RNA 地标周围的位点分布。

2024-12-01 00:50:16 1153

原创 Re-squiggle算法

重叠的窗口被合并成一个窗口。大多数读取可以使用较小的带宽处理，但如果读取未能成功re-squiggled，则使用第二个较大的“保存”带宽来尝试救援读取并完成成功的序列到信号分配。在每次迭代（从左下到右上移动）中，最大分数在三种可能性中选择：1）保持在同一基因组位置，并累积移位的z分数 2）将事件与基因组位置匹配（带有分数奖励）3）跳过此基因组位置（带有分数惩罚）。对于较长的读取，上述计算的基因组序列在原始信号中的起始位置被采用，然后应用相同的动态规划解决方案，除了现在使用较小的自适应带宽（见下图）。

2024-11-30 00:22:11 1144

原创 Tombo修饰碱基检测

为了给具有更大标准碱基与替代碱基预期信号水平差异的序列上下文更大的权重，增加了三个额外的缩放因子，这些参数也设置为使值与对数似然比的相对尺度相同，以便设置。由于纳米孔测序的性质，读取头周围的上下文会影响在任何位置观察到的电流。因此，由于修饰碱基引起的信号偏移可能发生在真实分配的修饰碱基位置的几个位置的任一侧。默认的 DNA 模型是 6-mer，因此六个周围的基因组碱基的信号对任何位置的结果统计量都有贡献。如果您的生物样本感兴趣的模型可用，这是修饰碱基检测的首选方法，因为可以识别确切的修饰位置。

2024-11-30 00:13:13 1276

原创 Modkit

Nmod- 通过过滤器分类为具有指定碱基修饰的残基的调用数量。Ncanonical- 通过过滤器分类为未修饰的碱基的调用数量。确切的碱基必须通过修饰代码推断。例如，如果修饰代码是m（5mC），则未修饰的碱基是胞嘧啶。如果修饰代码是a，则未修饰的碱基是腺苷。Nother mod- 通过过滤器分类为修饰的调用数量，但修饰不同于列出的碱基（且相应的未修饰碱基相同）。例如，对于给定的胞嘧啶，可能有 3 个读取带有h调用，1 个带有未修饰调用，2 个带有m调用。在h的 bedMethyl 行中，N。

2024-11-29 10:20:23 1055

原创 Xron

Xron (ˈkairɑn) 是一个甲基化碱基调用器，可以从ONT直接RNA测序中识别m6A甲基化修饰。使用深度学习CNN+RNN+CTC结构来建立端到端的碱基调用。名称继承自基于和 python 3.8+ 构建如果您在使用Xron时遇到任何问题，请在仓库中提交问题。

2024-11-27 17:14:53 598

原创 RedNano

RedNano 是一种深度学习方法，利用原始信号和碱基调用错误来检测 Nanopore DRS 读取中的 m6A。

2024-11-25 12:35:02 730

原创从RNA测序数据中推断差异RNA编辑位点的统计推断

这些测试考虑了编辑中的生物学变异和从计数数据（如RNA-seq）计算编辑时的固有不准确性。因此，它们在5%假阳性阈值及以下比常用的替代方法（如t检验、Wilcoxon秩和检验或合并Fisher精确检验）具有更大的功效和更低的假阳性。

2024-11-21 11:15:57 1466

原创 MINES

fraction modified 是识别到的 m6A 位点的值。然而，该位置的值应谨慎使用，因为“A”位点被发现是甲基化的不良预测因子。（仅在 fast5 文件中尚未包含 fastq 时需要）

2024-11-20 16:48:25 355

原创 Remora

与 Remora < 3.0 不同，数据集允许“无限迭代”，其中每个核心数据集无限独立地抽取以提供训练块。块的信号长度在数据准备/模型训练时定义，并保存在 Remora 模型中，以便在推理时以相同方式提取块。此命令输出的 BAM 文件将替换每个映射读取的碱基识别结果为映射的参考碱基。移动表将转移到映射的参考碱基，并在映射参考删除处进行插值，以启用 Remora 块的提取进行推理。Remora 数据准备从包含信号数据的 POD5 文件和包含 POD5 文件碱基识别结果的 BAM 文件开始。

2024-11-17 21:53:16 1070

原创 Taiyaki

Taiyaki 是用于训练牛津纳米孔读取基对齐模型的研究软件。牛津纳米孔的设备测量通过纳米孔的离子流，并在分子通过孔时检测该流的改变。这些信号可以非常复杂并表现出长程依赖性，就像口语或书面语言一样。Taiyaki 可以用于训练神经网络来理解来自纳米孔设备的复杂信号，使用受最先进语言处理技术启发的技术。Taiyaki 用于训练牛津纳米孔的 Guppy 基对齐器和中使用的模型进行修饰碱基检测。

2024-11-17 21:35:38 1571

原创 IL-AD

我们利用机器学习方法来适应纳米孔测序基对齐器，用于核苷酸修饰检测。我们首先应用增量学习技术来改进富含修饰的序列的基对齐，这些序列通常具有高度的生物学兴趣。在解析序列主干后，我们进一步对单个核苷酸进行异常检测，以确定其修饰状态。通过这种方式，我们的管道承诺实现单分子、单核苷酸和序列上下文无关的修饰检测。

2024-11-17 21:16:33 1194

原创 NanoPsiPy

NanoPsiPy方法通过使用U-to-C基对齐“错误”特征作为直接RNA测序数据中假尿苷（Ψ）的独特特征，识别并量化转录组范围内的假尿苷修饰。

2024-11-17 18:33:10 873

原创 PsiNanopore

您可以使用此包通过比较直接文件与IVT文件来计算基因组上位置的p值。p值越低，该位置为假尿苷酸化的可能性越高。我们工具的主要输入文件是对齐的读取（bam文件，请阅读“DNA/RNA测序分析的计算管道”部分中的逐步指南，了解如何从bam文件生成bam文件）。

2024-11-17 18:24:36 966

原创 CtoUclassifier

一个基于机器学习和深度学习的Python包，用于纳米孔噪声衰减，有助于直接RNA测序实验中C-to-U编辑信号的改善。

2024-11-14 17:58:02 528

原创 m1A-prediction

然后，可以使用我们提供的脚本训练自己的模型。我们提供的脚本将生成一个由256个模型组成的模型集合，以及所有模型的评估指标，包括准确率、F1分数、MCC、AUPR和AUROC，以及ROC曲线。在每个读取中，我们沿着序列识别NNANN基序，并捕获每个位置（-2, -1, 0, 1, 2）在5-mer中的相关特征。从ONT测序获得的多读取格式需要使用工具转换为较小尺寸的fast5文件，然后才能进行下一步。在使用机器学习获得读取级别的预测结果后，我们将提供一个脚本将读取级别的结果映射到站点级别。

2024-11-12 15:55:28 474

原创 m6ATM

m6ATM 是一个基于 Python 的计算管道，它应用深度神经网络使用纳米孔直接 RNA 测序（DRS）数据在单碱基分辨率下预测 m6A 位点。简而言之，m6ATM 使用一组读取来表征每个转录组位点，并确定其是否为 m6A 修饰。

2024-11-07 15:56:55 1011

原创 CHEUI

关于 CHEUICHEUI（使用离子电流进行甲基化（CH3）估计）是一种用于牛津纳米孔直接RNA测序数据的RNA修饰检测软件。CHEUI可以用于在单核苷酸分辨率下检测单个读取中的m6A和m5C修饰，适用于任何样本（例如单条件），或检测任意两个条件之间的差异m6A或m5C。CHEUI使用两阶段深度学习方法，在任何序列上下文中（即没有任何序列约束），以单读和单站点分辨率检测m6A和m5C转录组范围内的修饰。

2024-10-29 12:16:07 912

原创 yanocomp

yanocomp是一个用于从纳米孔直接RNA测序（DRS）数据中检测RNA修饰的工具，这些数据已经使用 nanopolish进行了“事件对齐”。它采用了类似于 nanocompore和 xpore的比较方法，使用广义混合模型。yanocompeventalign对于比较方法，您需要来自对照样本（具有正常水平的修饰）和处理样本（具有改变水平的修饰）的纳米孔 DRS 数据。yanocomp仍处于相当早期的测试阶段，因此可能存在错误！

2024-10-28 16:27:43 551

基因组学基于全基因组亚硫酸氢盐测序的DNA甲基化数据分析：从序列比对到差异甲基化区域检测的方法与挑战

内容概要：本文详细介绍了全基因组亚硫酸氢盐测序（BS-seq）数据分析方法及其挑战。首先解释了DNA甲基化作为表观遗传修饰的重要性及其在基因调控、发育和环境影响中的作用。接着讨论了两种主要的甲基化测序技术：基于捕获的方法和基于亚硫酸氢盐转化的方法，重点讲解了BS-seq的技术细节，包括DNA片段的处理、扩增和测序，以及数据对齐的复杂性。文章还探讨了不同对齐软件的优缺点，并提出了一些改进对齐质量的方法，如质量控制、读段修剪和使用滑动窗口平滑模型（BSmooth）。此外，文中对比了几种常用的差异甲基化分析方法，如Fisher精确检验、t检验和贝叶斯层次模型，强调了在样本量有限的情况下借用信息的重要性。最后，介绍了DSS工具在识别差异甲基化位点（DML）和区域（DMR）方面的应用。适用人群：从事基因组学研究的科研人员，尤其是关注表观遗传学和DNA甲基化的研究人员。使用场景及目标：①理解BS-seq技术的基本原理及其在表观遗传学研究中的应用；

2025-05-25

g:profiler富集分析

g:Profiler is a public web server for characterising and manipulating gene lists. g:Profiler has a simple user-friendly web interface with powerful visualisations and is currently available for 400+ species, including mammals, plants, fungi, insects from Ensembl and Ensembl Genomes. g:Profiler is updated approximately in every three months and follows quarterly releases of Ensembl databases.

2024-01-09

克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis test)代码

　克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis test)亦称“K-W检验”、“H检验”等。用以检验两个以上样本是否来自同一个概率分布的一种非参数方法。被检验的几个样本必须是独立的或不相关的。与此检验对等的参数检验是单因素方差分析，但与之不同的是，K-W检验不假设样本来自正态分布。与参数检验相比，非参数检验具有检验条件宽松、对样本数据要求较低、计算相对简单的优点。SPSS提供的非参数检验方法较多，包括二项检验、卡方检验、两独立样本检验、两配对样本检验、多独立样本检验、多配对样本检验、游程检验和单样本K-S检验等八种检验方法。　　Kruskal-Wallis秩和检验属于多个独立样本的非参数检验，用于在总体分布未知的情况下检验多个样本是否来自于相同分布的总体。Kruskal-Wallis H检验是Mann-Whitney U检验法的扩展，是一种推广的评价值检验。其基本思路是，首先对所有样本合并并且按照升序排列得出每个数据的秩，然后对各组样本求平均秩。如果平均秩相差很大，则认为两组样本所属的总体有显著差异。

2024-01-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人