安装生物序列去冗余软件cd-hit

本文介绍如何在Windows 10系统上安装并使用CD-HIT,这是一款用于生物信息学序列去冗余的工具。主要步骤包括从GitHub下载源代码、利用cygwin进行编译以及验证安装是否成功。

cd-hit是一款生信常用于序列去冗余的工具,在https://github.com/weizhongli/cdhit下载后,需要自己编译,对于windows系统,工作步骤如下(以下以windows 10下安装为例):

1. https://github.com/weizhongli/cdhit/releases下载cd-hit-v4.8.1-2019-0228.tar,解压得到文件夹:cd-hit-v4.8.1-2019-0228

2.下载cygwin,并安装

3.在安装cygwin时,勾选gcc-g++, make等必需软件包

4.安装完成后,打开cygwin终端,进入cd-hit-v4.8.1-2019-0228目录下,执行 make zlib=no

5.忽视安装中出现的警告

6. 安装完成后,在cygwin终端执行 ./cd-hit -h如果出现命令说明则安装成功。(也可以进入windows的命令行模式,进入cd-hit-v4.8.1-2019-0228目录下,执行cd-hit -h)

CD-HIT是一款广泛应用于生物息学领域的工具,用于从大量序列数据集中除高度相似的序列,保留代表性的非冗余序列集。它能够高效处理蛋白质和核酸序列,并提供多种参数设置选项以满足不同需求。 ### CD-HIT的工作原理 CD-HIT通过设定一个相似度阈值(例如90%),将所有输入序列两两比对,在簇内选择最长的一个作为代表序列。对于新加入的每个序列,程序会检查其是否已经存在于某个现有的簇中;如果该序列与其他成员之间的相似程度超过了预设阈值,则此序列入入相应的簇而不作为新的代表;反之则创建一个新的簇并以此序列为新的代表。 ### 安装与基本命令行操作 首先需要下载安装适合您系统的版本 [在这里](http://weizhong-lab.ucsd.edu/cd-hit/) ,解压后按照说明文档配置环境变量路径以便直接调用cdhit命令: ```bash # 假定已成功添加到PATH环境下 cd-hit -i input.fasta -o output_clustered.fasta -c 0.6 # 设置截断长度比例为默认值0.8, 相似度阈值为60% ``` 其中`input.fasta`表示待处理的数据文件名,“output_”则是输出结果前缀,默认成两个主要的结果文件:`.fasta`, `.clstr`. ### 参数解释 - `-i`: 输入FASTA格式的文件; - `-o`: 输出经过筛选后的代表性序列集合; - `-c`: 序列间最小允许的一致性百分比(即相似度),取值范围[0~1]之间的小数形式; - 其他常用选项还包括但不限于控制内存占用、线程数目等细节调整。 ### 实际应用场景示例 假设我们有一组蛋白序列想要除非特异性部分并且只留下彼此差距较大的样本作进一步研究分析。可以利用如下的指令组合完成初步清理工作: ```shell script cd-hit \ -i proteins_sequences.fa \ -o cleaned_proteins_set.faa \ -c 0.75 \ -M 40000 \ -T 8 ``` 这里指定了更高的相似度标准(c=0.75), 同时限制了最大可用RAM大小(M)以及并发运行的核心数量(T).
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值