转录组unigene表达结果,依据亚细胞定位再分析(无参考RNA-seq)
我们有一个几年前无参考转录组分析unigene的表达量结果,该转录组实验有两个处理(0 hour heat 和 6 hour heat treatment),想要从中查看铜相关基因在两个处理下的累积表达量情况,表达量分类是依据预测的亚细胞定位建立的。方便记录,具体操作步骤如下:
1. balstx寻找与已知铜蛋白比对率高的unigene序列
(1)已知两个文件
unigene.fasta (unigene DNA fasta)
RNA_unigene_res.txt (unigene gene count table)
(2)依据文献提取拟南芥相关蛋白序列
依据文章中检测到的拟南芥铜相关基因(附件中),使用拟南芥蛋白序列Arabidopsis_thaliana.TAIR10.pep.all.fa,提取对应蛋白序列:
The PCY-SAG14 phytocyanin module regulated by PIFs and miR408 promotes dark-induced leaf senescence in Arabidopsis
据此得到蛋白序列:
f07.tair10.copper.genelist.fasta
(3)运行blastx
使用BLAST 2.2.29+软件(BLAST+),首先用已知蛋白序列建库,然后用unigene.fasta比对:
makeblastdb -in ./f07.tair10.copper.genelist.fasta -dbtype prot -out unigenedb -parse_seqids
blastx -query ./unigene.fasta -db unigenedb -out unigene.blastx.Tair10.res.blast\
-evalue 1e-10 -num_threads 50 -outfmt 6
输出结果共有4713行:
4713 unigene.blastx.Tair10.res.blast
以identity 65%为阈值,只保留identity大于等于65%的比对结果,得到文件(111个基因):
111 f08.iden65.unigene.txt
根据unigene.fasta提取得到111个基因的DNA序列:
f09.iden65.

最低0.47元/天 解锁文章
8961

被折叠的 条评论
为什么被折叠?



