生信分析常用软件记录

这篇博客记录了生信分析,特别是二代测序过程中常用的软件,包括R、BWA、samtools、Trimmomatic等,旨在帮助理解各软件功能及差异,促进对分析流程的深入理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

20190727,在学习二代分析的过程中,只是根据别人已经建好的轮子照抄照搬,并不能真正理解每一步为什么要用这个软件,以及软件之间的区别。因此今天记录一些生信分析过程(主要是二代测序)中常用的软件,若有时间去查看一下每个软件的功能、官方介绍和算法等。

不按顺序的杂乱记录
sd linux安装软件
R, tanperl5lib, augustus-3.3.2, bamtools-2.4.2, bedops_linux_x86_64-v2.4.36, bismark_v0.22.1,

boost_1_69_0, bowtie-1.2.2-linux-x86_64, BRAKER-2.1.2, circos-tutorials-0.67, clinEff-notinstalled,

cmake-3.13.4-Linux-x86_64, cufflinks-2.2.1.Linux_x86_64, GapCloser-v1.12-r6, geneid-1.4.5,

GeneMark-ET-4.38, GFF3toolkit-1.4.4, gfftools-6bde56e, GlimmerHMM-3.0.4, lastz-1.04.00,

mauve_snapshot_2015-02-13, MUMmer3.23, mummer-4.0.0beta2, NGSQCToolkit_v2.3.3,

ngs-tools-master, novocraft-3.09.02, orthomclSoftware-v2.0.9, picard-tools-1.124, Quake,

RepeatMasker-4.0.8, rmblastn-2.2.28, snpEff_latest_core, snpEff-4.2, snpEff-4.3t, SOAPdenovo2-src-r240,

sratoolkit.2.9.2-centos_linux64, STAR-2.7.0e, stringtie-1.3.5.Linux_x86_64, tophat-2.1.1.Linux_x86_64

### 如何使用 PlantTFDB 下载基因家族数据并进行息学分析 #### 获取所需工具和资源 为了有效地从 PlantTFDB 数据库获取基因家族的数据,并对其进行后续的息学分析,需要准备一些基本工具和软件环境。这通常包括但不限于 Python 或 R 编程语言及其相应的包来处理序列文件以及执行统计测试。 #### 访问 PlantTFDB 并定位目标基因家族 访问 [PlantTFDB](http://planttfdb.cbi.pku.edu.cn/) 官方网站,在首页可以找到不同版本之间的切换选项。选择最新发布的版本以获得最全面的息。通过导航栏中的“Browse TFs by Family”,可以选择特定植物物种下的各个转录因子家族列表[^1]。 #### 下载感兴趣的基因家族成员 一旦确定了要研究的具体基因家族,点击进入该页面后可以看到详细的成员清单。这里提供了多种格式供下载,比如 FASTA 序列、GFF 文件等。对于大多数情况来说,FASTA 格式的核苷酸或氨基酸序列是最常用的输入形式之一用于下游的各种计算物学流程。 #### 初步探索与预处理所获资料 利用命令行工具如 `grep` 和 `awk` 可快速筛选出关注区域内的记录;而像 Biopython 这样的库则有助于解析复杂的多序列比对结果或是构建进化树模型。下面给出一段简单的Python脚本作为例子展示如何读取本地保存下来的fasta文档: ```python from Bio import SeqIO def read_fasta(file_path): sequences = [] with open(file_path, 'r') as handle: for record in SeqIO.parse(handle, "fasta"): seq_id = record.id sequence = str(record.seq) sequences.append((seq_id, sequence)) return sequences # 使用函数加载 fasta 文件 gene_family_sequences = read_fasta('path_to_your_downloaded_file.fasta') print(f'Total number of genes loaded: {len(gene_family_sequences)}') ``` 此段代码实现了从指定路径下读入 FASTA 文件的功能,并将其转换成易于操作的形式——即由元组组成的列表,每个元组包含两个元素分别是基因ID与其对应的核酸/蛋白序列字符串表示法。 #### 执行功能富集分析和其他高级应用 当拥有了足够的原始材料之后就可以着手开展更深入的研究工作了。例如,可以通过在线平台 DAVID 来实施 GO term 富集检验从而揭示潜在的作用机制;或者借助 STRING 数据库查询已知互作伙伴进而推测未知关联关系等等[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值