- 博客(56)
- 收藏
- 关注
原创 ModiDeC
数据管理”(或数据创建)GUI的创建是为了让用户能够生成个性化的训练数据,用于ModiDeC的进一步步骤和重新训练神经网络。图中显示了三个部分,每个部分都有多个输入变量。在本教程中,我们将解释如何正确生成您自己的数据集,以便为您的特定问题训练ModiDeC。首先,我们将介绍可以在GUI中输入的变量。在文件的第二部分,我们将提供一个示例,展示创建训练数据的步骤。
2025-03-06 12:02:53
596
原创 modPhred
modPhred是一个用于检测、注释和可视化DNA/RNA修饰的管道。管道由四个步骤/模块组成:modEncode:在FastQ中编码修饰概率(mod_encode.py)modAlign:构建比对,保留BAM中的修饰信息(mod_align.py)modReport:提取RNA修饰信息(bedGraph)和QC报告(mod_report.py)a. 绘制QC统计、配对图和维恩图(mod_plot.py),b. 修饰的共现(mod_correlation.py)
2025-03-05 15:52:23
636
原创 m6ABasecaller
m6ABasecaller 是一个修饰感知的RNA碱基识别模型,能够预测5种核苷(A、C、G、U、m6A),而传统的RNA碱基识别模型只能输出4种核苷(A、C、G、U)。该RNA碱基识别模型可以直接与Guppy一起使用。为了提取m6A修饰位点和频率,可以将其输入到ModPhred,该工具有助于存储和分析纳米孔测序数据集中的RNA修饰数据。该仓库包含使用m6A修饰感知RNA碱基识别模型(我们简称为)的命令行示例和脚本。
2025-02-26 17:23:46
788
原创 DInoPORE:通过纳米孔测序直接检测天然RNA中的肌苷
DInoPORE 是一种计算方法,用于从直接RNA测序数据中检测腺苷到肌苷(A-to-I)的编辑位点,并估计其编辑率。该GitHub仓库包含运行DInoPORE的脚本。希望使用DInoPORE架构训练自己模型的用户也可以找到训练脚本(见下文训练路径部分)。可以在DInoPORE的Code Ocean胶囊中找到示例数据集,以说明管道的运行方式以及小样本的典型运行时间(DOI: 10.24433/CO.2180901.v1)。
2025-02-26 15:43:39
914
原创 Bonito
Bonito 是一个用于牛津纳米孔测序读段的开源研究级碱基识别器。对于除碱基识别器训练或方法开发之外的任何用途,请使用。Bonito 支持输出对齐/未对齐的文件。
2025-02-26 15:08:12
919
原创 DeepEdit: 使用Nanopore直接RNA测序进行A-to-I RNA编辑事件的单分子检测
RNA编辑通过表观遗传方式调控基因组功能。Nanopore测序仪记录的电信号容易受到碱基修饰的影响。我们提出了DeepEdit,一种用于单分子检测RNA编辑事件的神经网络模型。我们使用S.pombe数据集训练了DeepEdit,但它在H.sapiens数据集中仍然表现良好。因此,我们鼓励您在更多物种中使用我们的工具。与之前的方法不同,DeepEdit主要有两个优势——长读长和单分子分辨率。
2025-02-20 19:12:36
726
原创 NAGATA
NAGATA 使用纳米孔直接RNA测序读取与基因组比对的结果来生成转录组注释。NAGATA 通过解析读取比对(排序的BAM文件)来识别转录单元(TUs),内部将BAM文件转换为BED12格式,然后按“起始”和“结束”位置进行数字排序,并将具有相似“起始”和“结束”坐标的比对分组。这是逐行进行的,只有当给定行的比对坐标与前一行相差超过用户定义的阈值(转录起始位点(TSS)为20 nt,切割和聚腺苷酸化位点(CPAS)为50 nt)时,才会定义一个新的TU。
2025-01-14 14:50:08
297
原创 Trim_Galore_User_Guide
是一个强大的工具,专门用于高通量测序数据的质量控制和适配器修剪。它特别适用于 RRBS(Reduced Representation Bisulfite Sequencing)数据,但也适用于其他类型的测序数据。通过一系列的修剪步骤,Trim Galore!能够有效去除低质量碱基、适配器序列和短序列,从而提高后续分析的准确性和可靠性。
2024-12-23 19:34:29
1136
原创 trim_galore
更多信息请参见:https://github.com/FelixKrueger/TrimGalore/issues/127 或 https://support.illumina.com/bulletins/2020/06/trimming-t-overhang-options-for-the-illumina-rna-library-prep-wo.html。这是一种特殊的双端数据操作模式,例如 IMPLICON 方法所需的模式,其中 UMI 序列从读取 2 的开头转移到两个读取的读取 ID 中。
2024-12-23 16:27:15
1144
原创 Arioc
请参阅 Arioc 用户指南(Arioc.guide.pdf)以获取有关 Arioc 编码器和比对器组件的详细信息,以及有关所需硬件和系统软件的信息。
2024-12-23 11:08:04
869
原创 AmpliconSuite-pipeline
AmpliconSuite-pipeline 是一个多线程支持的端到端工具,用于和 AmpliconClassifier,以支持从配对端全基因组测序数据分析局部拷贝数扩增(如ecDNA或BFB)。AmpliconSuite-pipeline 可以在数据准备过程的任何中间阶段启动,并且可以调用 AmpliconArchitect 和下游工具 AmpliconClassifier。AmpliconSuite-pipeline 以前被称为 “PrepareAA”。
2024-12-19 16:41:30
1095
原创 CReSIL: 从长读长序列中准确识别染色体外环状DNA
要运行 CReSIL 以识别 eccDNA 而不进行序列校正和变异检测步骤 - 跳过模式(从修剪步骤开始)要使用 CReSIL 识别全基因组长读长(WGLS)测序数据中的 eccDNA(从修剪步骤开始)要运行 CReSIL 以在宽松模式下识别 eccDNA(从修剪步骤开始)供用户通过 CReSIL 管道示例并用于 CReSIL 基准测试。有关每个 eccDNA 的映射读长的更多详细信息,请参阅。中的 eccDNA 文件夹。
2024-12-19 15:04:20
360
原创 R2Dtool
R2Dtool 是一组基因组学工具,用于处理、整合和可视化映射到转录本的 RNA 特征数据。转录本映射的数据:R2Dtool 执行转录本映射的 RNA 特征到其相应基因组坐标的提升。转录本映射的位点:R2Dtool 以同工型特异性的方式注释转录本特异的元转录坐标以及到注释的转录本地标的绝对和相对距离。同工型感知的 RNA 特征分布:R2Dtool 引入同工型感知的图和图,以研究 RNA 特征在注释的 RNA 地标周围的位点分布。
2024-12-01 00:50:16
1035
原创 Re-squiggle算法
重叠的窗口被合并成一个窗口。大多数读取可以使用较小的带宽处理,但如果读取未能成功re-squiggled,则使用第二个较大的“保存”带宽来尝试救援读取并完成成功的序列到信号分配。在每次迭代(从左下到右上移动)中,最大分数在三种可能性中选择:1)保持在同一基因组位置,并累积移位的z分数 2)将事件与基因组位置匹配(带有分数奖励)3)跳过此基因组位置(带有分数惩罚)。对于较长的读取,上述计算的基因组序列在原始信号中的起始位置被采用,然后应用相同的动态规划解决方案,除了现在使用较小的自适应带宽(见下图)。
2024-11-30 00:22:11
1079
原创 Tombo修饰碱基检测
为了给具有更大标准碱基与替代碱基预期信号水平差异的序列上下文更大的权重,增加了三个额外的缩放因子,这些参数也设置为使值与对数似然比的相对尺度相同,以便设置。由于纳米孔测序的性质,读取头周围的上下文会影响在任何位置观察到的电流。因此,由于修饰碱基引起的信号偏移可能发生在真实分配的修饰碱基位置的几个位置的任一侧。默认的 DNA 模型是 6-mer,因此六个周围的基因组碱基的信号对任何位置的结果统计量都有贡献。如果您的生物样本感兴趣的模型可用,这是修饰碱基检测的首选方法,因为可以识别确切的修饰位置。
2024-11-30 00:13:13
1181
原创 Modkit
Nmod- 通过过滤器分类为具有指定碱基修饰的残基的调用数量。Ncanonical- 通过过滤器分类为未修饰的碱基的调用数量。确切的碱基必须通过修饰代码推断。例如,如果修饰代码是m(5mC),则未修饰的碱基是胞嘧啶。如果修饰代码是a,则未修饰的碱基是腺苷。Nother mod- 通过过滤器分类为修饰的调用数量,但修饰不同于列出的碱基(且相应的未修饰碱基相同)。例如,对于给定的胞嘧啶,可能有 3 个读取带有h调用,1 个带有未修饰调用,2 个带有m调用。在h的 bedMethyl 行中,N。
2024-11-29 10:20:23
746
原创 Xron
Xron (ˈkairɑn) 是一个甲基化碱基调用器,可以从ONT直接RNA测序中识别m6A甲基化修饰。使用深度学习CNN+RNN+CTC结构来建立端到端的碱基调用。名称继承自基于和 python 3.8+ 构建如果您在使用Xron时遇到任何问题,请在仓库中提交问题。
2024-11-27 17:14:53
472
原创 从RNA测序数据中推断差异RNA编辑位点的统计推断
这些测试考虑了编辑中的生物学变异和从计数数据(如RNA-seq)计算编辑时的固有不准确性。因此,它们在5%假阳性阈值及以下比常用的替代方法(如t检验、Wilcoxon秩和检验或合并Fisher精确检验)具有更大的功效和更低的假阳性。
2024-11-21 11:15:57
1348
原创 MINES
fraction modified 是识别到的 m6A 位点的值。然而,该位置的值应谨慎使用,因为“A”位点被发现是甲基化的不良预测因子。(仅在 fast5 文件中尚未包含 fastq 时需要)
2024-11-20 16:48:25
310
原创 Remora
与 Remora < 3.0 不同,数据集允许“无限迭代”,其中每个核心数据集无限独立地抽取以提供训练块。块的信号长度在数据准备/模型训练时定义,并保存在 Remora 模型中,以便在推理时以相同方式提取块。此命令输出的 BAM 文件将替换每个映射读取的碱基识别结果为映射的参考碱基。移动表将转移到映射的参考碱基,并在映射参考删除处进行插值,以启用 Remora 块的提取进行推理。Remora 数据准备从包含信号数据的 POD5 文件和包含 POD5 文件碱基识别结果的 BAM 文件开始。
2024-11-17 21:53:16
941
原创 Taiyaki
Taiyaki 是用于训练牛津纳米孔读取基对齐模型的研究软件。牛津纳米孔的设备测量通过纳米孔的离子流,并在分子通过孔时检测该流的改变。这些信号可以非常复杂并表现出长程依赖性,就像口语或书面语言一样。Taiyaki 可以用于训练神经网络来理解来自纳米孔设备的复杂信号,使用受最先进语言处理技术启发的技术。Taiyaki 用于训练牛津纳米孔的 Guppy 基对齐器和中使用的模型进行修饰碱基检测。
2024-11-17 21:35:38
1486
原创 IL-AD
我们利用机器学习方法来适应纳米孔测序基对齐器,用于核苷酸修饰检测。我们首先应用增量学习技术来改进富含修饰的序列的基对齐,这些序列通常具有高度的生物学兴趣。在解析序列主干后,我们进一步对单个核苷酸进行异常检测,以确定其修饰状态。通过这种方式,我们的管道承诺实现单分子、单核苷酸和序列上下文无关的修饰检测。
2024-11-17 21:16:33
1143
原创 NanoPsiPy
NanoPsiPy方法通过使用U-to-C基对齐“错误”特征作为直接RNA测序数据中假尿苷(Ψ)的独特特征,识别并量化转录组范围内的假尿苷修饰。
2024-11-17 18:33:10
814
原创 PsiNanopore
您可以使用此包通过比较直接文件与IVT文件来计算基因组上位置的p值。p值越低,该位置为假尿苷酸化的可能性越高。我们工具的主要输入文件是对齐的读取(bam文件,请阅读“DNA/RNA测序分析的计算管道”部分中的逐步指南,了解如何从bam文件生成bam文件)。
2024-11-17 18:24:36
912
原创 CtoUclassifier
一个基于机器学习和深度学习的Python包,用于纳米孔噪声衰减,有助于直接RNA测序实验中C-to-U编辑信号的改善。
2024-11-14 17:58:02
480
原创 m1A-prediction
然后,可以使用我们提供的脚本训练自己的模型。我们提供的脚本将生成一个由256个模型组成的模型集合,以及所有模型的评估指标,包括准确率、F1分数、MCC、AUPR和AUROC,以及ROC曲线。在每个读取中,我们沿着序列识别NNANN基序,并捕获每个位置(-2, -1, 0, 1, 2)在5-mer中的相关特征。从ONT测序获得的多读取格式需要使用工具转换为较小尺寸的fast5文件,然后才能进行下一步。在使用机器学习获得读取级别的预测结果后,我们将提供一个脚本将读取级别的结果映射到站点级别。
2024-11-12 15:55:28
416
原创 m6ATM
m6ATM 是一个基于 Python 的计算管道,它应用深度神经网络使用纳米孔直接 RNA 测序(DRS)数据在单碱基分辨率下预测 m6A 位点。简而言之,m6ATM 使用一组读取来表征每个转录组位点,并确定其是否为 m6A 修饰。
2024-11-07 15:56:55
936
原创 CHEUI
关于 CHEUICHEUI(使用离子电流进行甲基化(CH3)估计)是一种用于牛津纳米孔直接RNA测序数据的RNA修饰检测软件。CHEUI可以用于在单核苷酸分辨率下检测单个读取中的m6A和m5C修饰,适用于任何样本(例如单条件),或检测任意两个条件之间的差异m6A或m5C。CHEUI使用两阶段深度学习方法,在任何序列上下文中(即没有任何序列约束),以单读和单站点分辨率检测m6A和m5C转录组范围内的修饰。
2024-10-29 12:16:07
847
原创 yanocomp
yanocomp是一个用于从纳米孔直接RNA测序(DRS)数据中检测RNA修饰的工具,这些数据已经使用 nanopolish进行了“事件对齐”。它采用了类似于 nanocompore和 xpore的比较方法,使用广义混合模型。yanocompeventalign对于比较方法,您需要来自对照样本(具有正常水平的修饰)和处理样本(具有改变水平的修饰)的纳米孔 DRS 数据。yanocomp仍处于相当早期的测试阶段,因此可能存在错误!
2024-10-28 16:27:43
488
原创 slow5tools
将 FAST5 文件转换为 SLOW5/BLOW5 格式。将 SLOW5/BLOW5 文件转换为 FAST5 格式。查看 SLOW5/BLOW5 文件的内容或在不同的 SLOW5/BLOW5 格式和压缩之间进行转换。为 SLOW5/BLOW5 文件创建索引。将多个 SLOW5/BLOW5 文件合并为一个文件。快速连接相同读取组的 SLOW5/BLOW5 文件。将单个 SLOW5/BLOW5 文件分割成多个单独的文件。从 SLOW5/BLOW5 文件中检索指定读取 ID 的记录。
2024-10-04 16:48:13
806
原创 codonW教程
它给出了产生与观察到的相同密码子使用偏差的等效使用密码子数,较低的值表示更强的偏差。假设codonw识别的主要趋势是翻译最优性的选择,并且分配到高偏差密码子使用组的基因是高度表达的,codonw输出文件,这些文件包含“最佳密码子”和“CAI适应性适应值”。因此,如果指数值的比较在内部是一致的(即它们都是使用相同的最佳密码子信息计算的),则可以进行密码子使用和偏差的相对比较。因此,如果指数值的比较在内部是一致的(即它们都是使用相同的最佳密码子信息计算的),则可以进行密码子使用和偏差的相对比较。
2024-09-17 21:41:15
1419
原创 Uncalled4
Uncalled4 是一个用于纳米孔信号对齐、分析和可视化的工具包。它执行准确的基序引导纳米孔信号对齐,类似于 nanopolish eventalign 或 tombo resquiggle,将纳米孔信号段映射到参考核苷酸上。它还支持将任何信号对齐转换为高效的 BAM 格式,允许进行交互式可视化、修改检测和其他信号分析。
2024-08-26 13:36:09
975
原创 tombo resquiggle
必须在修改基底检测或其他Tombo命令之前,在一组读取上运行命令。必须提供包含FAST5读取文件和基因组/转录组参考的目录。参考序列可能是之前已知的,或者是从这个样本中发现的。重要的是,参考序列被假定为正确,因此通过抛光创建个性化参考可能会改善性能,特别是对于分歧样本或组装不良的参考。原始读取FAST5文件必须包含基底呼叫。使用命令从FASTQs集合中添加基底呼叫到原始读取文件。读取文件不需要包含Events数据(由albacore的fast5模式输出)。
2024-08-13 14:51:12
1079
原创 MiMB_JACUSA2
我们提供了一个使用纳米孔直接 RNA-seq 检测 RNA 修饰的 Snakemake 管道,适用于多种条件和重复样本。
2024-07-25 17:16:40
906
原创 DENA (Deeplearning Explore Nanopore m6A)
这些说明将帮助你在本地机器上获取项目的副本,并用于开发和测试目的。有关在实时系统中部署项目的说明,请查看部署。
2024-07-17 15:41:39
719
g:profiler富集分析
2024-01-09
克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis test)代码
2024-01-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人