FastQC 安装与使用完整指南
FastQC 是一款专为高通量测序数据设计的质量控制系统。它能够对 FastQ 或 BAM 格式的原始序列文件运行一系列分析,生成全面的质量控制报告。本指南将详细介绍如何安装和使用这款强大的生物信息学工具。
项目概述
FastQC 旨在发现高通量测序数据集中的潜在问题。它通过一系列测试来分析序列文件,每个测试会根据与正常大数据的偏差程度标记为通过、警告或失败。重要的是要理解,警告或失败并不一定意味着数据有问题,只是表明数据存在异常情况。
系统要求
FastQC 是一个跨平台的 Java 应用程序,理论上可以在任何具有合适 Java 运行环境的平台上运行。经过测试的平台包括 Windows、MacOSX 和 Linux,使用的 JRE 版本为 Oracle v1.6 到 1.8。
安装步骤
环境准备
首先需要确保系统已安装合适的 Java 运行环境。推荐使用最新的 Oracle 运行时环境或 adoptOpenJDK 项目的 JRE。需要下载并安装 64 位 JRE,并确保 java 命令在系统路径中。
检查 Java 是否已安装:
java -version
各平台安装方法
MacOSX 用户 FastQC 以 DMG 镜像文件分发。从项目页面下载镜像后双击打开,将应用程序拖到想要安装的位置即可。
Windows 和 Linux 用户 在 Linux 上,大多数发行版已经预装了 Java。如果需要安装:
- Ubuntu/Mint:
sudo apt install default-jre - CentOS/Redhat:
sudo yum install java-1.8.0-openjdk
在 Linux 上,FastQC 使用一个小的 Perl 脚本来启动程序,因此需要安装 Perl 及其标准核心模块。
实际安装
安装 FastQC 非常简单,只需将压缩包解压到合适的位置即可。解压后即可使用。
运行模式
FastQC 支持两种运行模式:
交互式图形应用
在这种模式下,可以动态加载 FastQ 文件并查看结果。
Windows:双击 run_fastqc.bat 文件 MacOSX:双击 FastQC 应用程序图标 Linux:使用包装脚本 'fastqc',可能需要先赋予执行权限:
chmod 755 fastqc
./fastqc
非交互式模式(管道分析)
在这种模式下,通过命令行指定要处理的文件,FastQC 会为每个文件生成 HTML 报告,而不启动用户界面。
命令行使用
基本用法
fastqc somefile.txt someotherfile.txt
常用选项
-o或--outdir:指定输出报告目录-f或--format:指定输入文件格式-t或--threads:设置并行运行线程数--extract:解压生成的 zip 文件--quiet:抑制进度消息
流式数据处理
可以从标准输入读取数据流:
zcat *fastq.gz | fastqc stdin
自定义文件名
为流式分析结果指定自定义文件名:
zcat *fastq.gz | fastqc stdin:my_results
分析模块详解
FastQC 包含多个分析模块,每个模块专注于特定的质量指标:
 基础统计:提供文件的总体信息,包括编码类型、序列数量等。
 每碱基序列质量:显示序列文件中每个位置的质量值分布。
 每序列质量得分:分析每个序列的平均质量。
 每碱基序列含量:检查每个位置 A、T、G、C 的分布情况。
 每序列 GC 含量:分析每个序列的 GC 含量分布。
 每碱基 N 含量:检测未确定碱基(N)的分布。
 序列长度分布:显示序列文件中序列长度的分布情况。
 重复序列:分析序列文件中重复序列的程度。
 过度表达序列:识别在序列文件中过度表达的序列。
 每图块序列质量:针对 Illumina 测序数据,分析每个图块的质量情况。
报告自定义
如果想要在测序管道中运行 FastQC,可能需要更改报告的格式以添加自己的品牌或包含额外信息。
在 Templates 目录中,可以找到名为 header_template.html 的文件,可以编辑该文件以更改报告的外观。此文件包含报告文件的所有头部信息,包括 CSS 部分,可以根据需要进行修改。
可以使用文本标签 @@FILENAME@@ 和 @@DATE@@ 作为占位符,在创建报告时填充这些占位符。
配置选项
模块阈值配置
所有模块现在都可以通过配置文件来设置程序使用的警告和错误阈值,以便只标记您关注的问题类型。
可选模块
用于设置警告/错误阈值的相同配置文件也可用于选择性地禁用不希望看到的模块。
Kmer 模块配置
默认情况下,Kmer 模块现在被禁用。如果想要重新启用此模块,只需编辑 FastQC 安装的 Configuration 文件夹中的 limits.txt 文件,将顶部的行从:
kmer ignore 1
更改为:
kmer ignore 0
模块将重新启用。
故障排除
内存问题
默认内存分配现在是 512MB,还有一个 --memory 选项可以增加分配的内存。
文件格式问题
如果遇到文件格式检测问题,可以使用 --format 选项手动指定输入格式。
版本更新
FastQC 持续更新以修复错误并添加新功能。最新版本 v0.12.1 修复了 OSX 上 gzip 文件检测的问题。
最佳实践建议
- 在处理任何测序数据集之前,始终进行质量控制检查
- 注意警告和失败标记,但不要过度解读
- 结合其他生物信息学工具进行综合分析
- 定期检查 RELEASE_NOTES.txt 以获取最新功能信息
- 参考官方示例报告,理解各项质量指标的含义
通过本指南,您应该能够成功安装和使用 FastQC 来进行高通量测序数据的质量控制分析。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



