LanceOtron: a deep learning peak caller for ATAC-seq, ChIP-seq, and DNase-seq

LanceOtron是一种基于深度学习的新型框架,用于识别ATAC-seq、ChIP-seq和DNase-seq数据中的峰值,以提高基因组富集测量的准确性。与传统方法相比,LanceOtron在精度、召回率和F1分数上表现出优越性能,特别是在无输入控制轨迹的情况下。该框架结合了深度卷积神经网络和逻辑回归,通过分析区域富集指标和峰形状,有效地识别生物事件引起的峰值,降低了噪声影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

ATAC-seq、ChIP-seq 和 DNase-seq 是基因组识别中重要的DNA编码元素,这些元素在分析覆盖轨迹的模拟信号中表现为峰值。本文提出了一个基于深度学习的峰值调⽤框架 LanceOtron,使用深度学习图像识别的方法来识别峰值形状,来进行富集测量。

生物学相关知识

ChIP-seq可以绘制基因调控中蛋白质结合或染色质修饰的区域。
ATAC-seq或DNase-seq可以提供基因组功能区域的细胞类型特异性图谱。
从这些分析中准确提取具有生物学意义的数据为当前的功能基因组学研究奠定了基础,对于理解健康和疾病中的基因调控至关重要。
对来自ATAC-seq、ChIP-seq 和 DNase-seq 的数据通常用以下方法处理:
对富集的的 DNA 片段进行测序,与基因组对齐,并记录富含这些片段的区域。这些数据显⽰为跨越基因组坐标的模拟信号轨迹,轨迹中的峰值往往是一些重要位点。

现有问题

虽然可以使用泊松分布区分噪声,但仍无法很好的模拟实际噪声。可以使用工具,通过使用匹配的负控制(也称为“输入轨迹”)来计算背景噪声水平来减少误差,但会增加实验的时间和成本。
采用高通量目视检查仍存在许多错误的峰值调用。
滥用统计数据无法复现已经发表的研究结果夸大统计测试结果、将意义和效果混为一谈,容易使得peak caller陷入陷阱。

方法

总体思想是通过计算每个被评估区域的大量富集指标,并将这些指标与可以识别峰形状特征的CNN网络结合。

总体结构

总体结构如图1。
Alt

图1

  • 该网络使用了从一个峰值中与其周围相比的最大重叠读取数(染色体宽度以及10千碱基(kb)到100 kb区域以10 kb的增量进行)的富集测量
  • 在逻辑回归模型中使用测量值,产生富集分数
  • 在以每个峰值为中心的2 kb窗口上对信号的碱基对分辨率视图进行编码并输入到CNN中;CNN使用所有2000个点的重叠读取数之间的关系,即形状,来确定该区域是否是由生物事件或噪声引起的峰值
  • 多层感知器将来自CNN和逻辑回归模型的输出以及11个局部富集测量值相结合,以产生一个称为峰值分数的总体峰值质量度量

三个模块

LanceOtron 具有三个主要模块,每个模块都将覆盖⽂件作为输⼊,并返回具有相关分数的丰富区域作为输出。

  1. Find and Score Peaks,首先将富集区域标记为候选峰,然后使用LanceOtron 的深度学习模型对其进行评分
  2. Find and Score Peaks with Inputs 执行与第⼀个模块相同的功能,但额外计算基于区域的 p 值与浓缩相比
  3. Score Peaks,它不会找到候选峰,而是神经网络对作为附加⽂件提供的基因组位置进行评分

前两个模块,Find and Score Peaks 和 Find and Score Peaks with Inputs,采⽤ LanceOtron 的候选峰值调用算法。这是通过应用 25 路富集测试来实现的,该测试由不同的平滑窗口阈值组合(方法)组成。这允许以各种方式将⼀个区域视为富集,⽬的是⽣成⼀个包含所有可能感兴趣区域的超完整集,以呈现给神经网络进行评估。
最后⼀个模块 Score Peaks 使用LanceOtron 的神经网络组件与候选峰标识符隔离。这允许用户分析来自其他工具、出版物或数据库的peak calling质量。

实验

转录因子ChIP-seq

使用来自于脾原代细胞中的 CTCF,标记明显是峰值或噪声的区域,产生了 109 个⼈⼯管理的峰值注释。
当不使用输⼊控制轨道时,LanceOtron 和 MACS2 都达到了完美的灵敏度,检测到数据集中所有标记的峰,但 MACS2 的选择性和整体 F1 分数要低得多。
在输⼊方面,LanceOtron 在精度、召回率/灵敏度、选择性和 F1 分数方面优于MACS2。比较峰值呼叫类型,没有输⼊的 LanceOtron 实际上比所有指标都有输⼊的 MACS2 获得了更⾼的分数。

组蛋白ChIP-seq

使用了HAP-1 细胞中的H3K27ac ,MG63 细胞 中的 H3K4me3。对于 H3K27ac,最高灵敏度是通过三个峰值调⽤实现的:LanceOtron,有输⼊和无输⼊,MACS2 没
有输⼊。
LanceOtron 在精度、选择性和 F1 分数的其余指标上优于 MACS2。 LanceOtron 在峰值调用上,无论有无输⼊都实现了相同的性能,突出了其深度神经网络的功能。
在H3K4me3 数据集中,具有输入的 LanceOtron 和 MACS2 之间的特异性相等,并且 LanceOtron 在其余指标的所有峰值调⽤类型中均优于 MACS2。

ATAC-seq 和 DNase-seq

ATAC-seq 的内部数据包括来⾃ ENCODE 的 MCF-7 细胞系中的区域。
LanceOtron 在所有指标上都优于 MACS2。
DNase-seq 数据来自 ENCODE的 A549 细胞系。
MACS2在召回/敏感度方面优于LanceOtron,但假阳性率非常高。在精度、灵敏度和 F1 得分方面,LanceOtron优于 MACS2。

### ATAC-seq数据分析概述 ATAC-seq (Assay for Transposase-Accessible Chromatin using sequencing) 是一种用于研究染色质可接近性的高通量测序技术。该技术能够识别开放染色质区域,这些区域通常与基因调控元件如启动子、增强子和其他顺式作用元件有关。 为了有效处理和解释来自ATAC-seq实验的数据,多种生物信息学工具被开发出来支持不同阶段的分析流程[^1]。 ### 数据预处理 原始FASTQ文件需要经过质量控制(QC),去除低质量读段以及接头污染。常用软件包括FastQC 和 Trimmomatic来完成这一步骤。之后通过BWA 或 Bowtie2 将高质量序列比对到参考基因组上,并生成SAM/BAM格式的映射结果文件。 ### 峰检测与注释 Peak calling是从比对后的bam文件中鉴定出显著富集信号峰的过程。MACS2, HOMER等都是广泛使用的peak caller工具。找到peaks后还需要对其进行功能注释,可以借助ChIPseeker包实现这一目的,它能提供详细的转录因子结合位点及其邻近基因的信息。 ### 可视化展示 对于复杂多样的表观遗传修饰模式来说,可视化是非常重要的环节之一。IGV( Integrative Genomics Viewer )是一个强大的桌面应用程序,允许用户浏览各种类型的基因组特征;而deepTools则提供了更多样化的统计图表绘制选项,比如Heatmap、PCA图等等。 ```r library(deepTools) plotFingerprint(bam.files = c("sample1.bam", "sample2.bam"), plot.title="Fingerprints of samples", output.file="fingerprint.png") ``` ### 转录因子结合预测 除了上述常规操作外,在某些情况下可能还会涉及到特定转录因子(TFs)目标基因筛选的任务。此时就可以采用基于DNA模序分析的方法,例如利用RcisTarget包来进行TF基序扫描并挑选潜在直接相互作用伙伴。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值