python 去除换行符_技术贴 | Python:fasta文件处理和GC含量统计

本文介绍了如何使用Python去除fasta文件中序列的换行符以及计算每条序列的GC含量。通过构建字典存储序列名和序列,然后进行join操作和GC含量统计,提供了一套完整的脚本流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

057852aac95d763928e8fb146bfceac3.gif点击蓝字↑↑↑“微生态”,轻松关注不迷路

fdcf2d5f321b0d90358ede58e0606d9f.png

本文由阿童木根据实践经验而整理,希望对大家有帮助。

原创微文,欢迎转发转载。

Fasta文件有两种常见的格式,一种是一行序列名加一行序列,另一种是一行序列名加多行序列(每60个碱基换行)。下面分享两个用python处理和统计第二种fasta文件的脚本:

1. 去除fasta文件的换行符

2. 计算[换行符分隔]fasta文件每条序列的GC含量

二、去除fasta文件的换行符

1. 1 输入数据

cat test
# 一个随便写的文件
>sequence_1
AAAA
GGGG
CCCC
TTTT
>sequence_2
aaaa
gggg
cccc
tttt

1.2 Python3代码

思路:

第一步:构建字典将序列名作为键,序列作为值

第二部:读取字典,join序列,保存<

4.以下是一组小RNA的fasta序列 __DATA__ >2_24_3 AAAAAACAACCTCTCTACCTGTTC >7_17_6 AAAAAACAAGTAGATCA >8_24_1 AAAAAACAATTAACTGTGGACGGA >9_18_2 AAAAAACACAATCAAATA >11_24_2 AAAAAACAGACTGCAGTTGACGAT >12_24_62 AAAAAACAGGCTGAGACGACGGAA >13_25_6 AAAAAACAGGCTGAGACGACGGAAC >14_24_7 AAAAAACAGGCTGAGACGATGGAA >15_24_11 AAAAAACAGGCTGAGATGACGGAA >16_24_31 AAAAAACAGGGCTGAGACGACGGA >18_15_5 AAAAAACATTTTCCT >19_24_6 AAAAAACCACGGACCAAGAGGAGC >20_24_2 AAAAAACCACGGACTAAGAGAAGC >21_24_6 AAAAAACCACGGACTAAGAGGAGC >22_24_4 AAAAAACCACGGGCCAAGAGAAGC >23_24_18 AAAAAACCACGGGCCAAGAGGAGC >24_24_2 AAAAAACCATAACCTACCTCCACC >25_22_1 AAAAAACCATCTTTCAATTTCT >27_17_2 AAAAAACCCATTTTAAA >30_24_3 AAAAAACCGATAGTTGCGAATTCA >33_23_5 AAAAAACGGAAAGAGGTAGTCAA >34_24_5 AAAAAACGGACTTCAAAGTAGATT >35_24_7 AAAAAACGGGCTGAGACGACGGAA >36_25_4 AAAAAACGGGCTGAGACGACGGAAC >39_24_14 AAAAAACGTTGGGCACAGAAGATA >40_24_5 AAAAAACTAAATGCAAATGACGGC >41_15_4 AAAAAACTAAGAAAA >44_23_1 AAAAAACTACAGTAAATCACCAT >45_15_19 AAAAAACTACTGAAT >46_24_11 AAAAAACTACTGGCCAAGAGGAGC >48_24_7 AAAAAACTATCGGATCTCCTCCAT >49_24_7 AAAAAACTATGAACAACTGAACGC >51_15_1 AAAAAACTCCTATTT >52_23_8 AAAAAACTCGAGACCTCTGATTA >54_23_3 AAAAAACTCTACAACAGATGATG >55_22_9 AAAAAACTCTGATCAAGCATGA >57_25_2 AAAAAACTCTGATCAAGCATGACGA >58_24_22 AAAAAACTCTGTTCACGGTATATA >60_24_23 AAAAAACTGAACAAAGCGGAAGAC >61_24_2 AAAAAACTGAACCGACTGATAAGC >63_23_6 AAAAAACTGAAGGAGTCTGTCAA >65_24_4 AAAAAACTGGCTGAGACGACGGAA >66_25_5 AAAAAACTGGCTGAGACGACGGAAC >67_24_2 AAAAAACTGGCTGAGACGACGGAT >68_23_7 AAAAAACTGTAGCAAGCGAGAAG >69_24_2 AAAAAACTGTATAATTCGCTATAC >72_23_1 AAAAAACTTCCTTATCTTAACAA >74_24_5 AAAAAACTTGGACAAGGCGGCTCA >75_24_11 AAAAAACTTGTAGAAAGCAGAAGA >78_24_6 AAAAAACTTTTAACAGATGGCATA 问题: a. 把所有小rna序列拼接,并以八十个碱基为一行进行打印; b. 计算上述序列的G+C的含量; c. 求小rna的unique基因数目 (提示 :求">"个数) d. 求小rna的总数(把所有如"2_24_3"格式中的最后一个数相加)
06-28
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值