cd-hit 去除冗余序列

CD-HIT是一款用于去除冗余序列的高效软件,尤其适用于蛋白质聚类。其工作原理基于序列相似性排序和word过滤,显著提高了处理速度。安装后,通过指定参数如相似性阈值(默认0.9)即可完成去冗余操作。此外,文中还提及了pandas在数据分析中的基础应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

cd-hit 去除冗余序列

CD-HIT早先是一个蛋白聚类的软件,其主要的特定就是快!

其去除冗余序列的大概思路就是:

首先对所有序列长度进行排序,从最长的开始,形成一个序列类,然后依次对序列进行处理,如果下一条序列和代表的序列相似性在cutoff,则将其加入同一类,否则得到新的类。
所以快主要是两个方面的原因:一个是使用了word过滤方法,即如果两条序列之间的相似性在80%(假设序列长度为100),那么它们至少有60个相同的长度为2的word,至少有40个相同的长度为3的word,至少有20个相同的长度为4的word。基于这个原则,在处理新的序列的时候,如果新的序列与已有序列的相同word的长度不能满足这些要求则不需要进行比对了,这极大的降低了时间消耗;另外一个速度快的原因是使用了index table,可以很快的计算序列之间相同word的数目。
当序列相似性在80%时,有20个位点是有差异的,极端的情况就是这20个位点对应的长度为2的字符串都不一样,因此是40个不一样,当有更多的不一样时,两条序列的相似性不可能在80%;同理,如果这20个位点对应的长度为4的字符串都不一样,则有80个不一样。

安装

点击该处进行下载https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz

tar -zxf cdhit-4.6.2.tar.gz
cd tar -zxf cdhit-4.6.2.tar.gz
make

其输入格式为fasta的格式

简单使用

cd-hit -i all.fasta -o new.fa -c 0.9 -aS 0.8 -d 0

参数
-i : 输入文件,fasta
-o: 输出文件
-c: 类似比对相似性高于0.9 则聚为一类,一般为0.9
-d: 当为0时,利用fasta文件完整名称

还有其它一些参数,可以利用下面进行理解

在这里插入图片描述

aL=Ra /R
AL = R - Ra
aS=Sa /S
AS = S - Sa
s=Sa /Ra
S=R/S
U=S1 +S2
uL = U / R
uS = U / S

输出
两个结果

去冗余后的fasta文件
说明文档,其内容大概如下

CD-HIT是一款广泛应用于生物信息学领域的工具,用于从大量序列数据集中去除高度相似的序列,保留代表性的非冗余序列集。它能够高效处理蛋白质和核酸序列,并提供多种参数设置选项以满足不同需求。 ### CD-HIT的工作原理 CD-HIT通过设定一个相似度阈值(例如90%),将所有输入序列两两比对,在簇内选择最长的一个作为代表序列。对于新加入的每个序列,程序会检查其是否已经存在于某个现有的簇中;如果该序列与其他成员之间的相似程度超过了预设阈值,则此序列入入相应的簇而不作为新的代表;反之则创建一个新的簇并以此序列为新的代表。 ### 安装与基本命令行操作 首先需要下载安装适合您系统的版本 [在这里](http://weizhong-lab.ucsd.edu/cd-hit/) ,解压后按照说明文档配置环境变量路径以便直接调用cdhit命令: ```bash # 假定已成功添加到PATH环境下 cd-hit -i input.fasta -o output_clustered.fasta -c 0.6 # 设置截断长度比例为默认值0.8, 相似度阈值为60% ``` 其中`input.fasta`表示待处理的数据文件名,“output_”则是输出结果前缀,默认生成两个主要的结果文件:`.fasta`, `.clstr`. ### 参数解释 - `-i`: 输入FASTA格式的文件; - `-o`: 输出经过筛选后的代表性序列集合; - `-c`: 序列间最小允许的一致性百分比(即相似度),取值范围[0~1]之间的小数形式; - 其他常用选项还包括但不限于控制内存占用、线程数目等细节调整。 ### 实际应用场景示例 假设我们有一组蛋白序列想要去除非特异性部分并且只留下彼此差距较大的样本作进一步研究分析。可以利用如下的指令组合完成初步清理工作: ```shell script cd-hit \ -i proteins_sequences.fa \ -o cleaned_proteins_set.faa \ -c 0.75 \ -M 40000 \ -T 8 ``` 这里指定了更高的相似度标准(c=0.75), 同时限制了最大可用RAM大小(M)以及并发运行的核心数量(T).
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值