#陈老师的样例数据
ln -s /opt/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta genome.fasta
# 将 RNA-Seq de novo 组装序列和 genome-guided 组装序列合并到一个文件中
cat /opt/00.incipient_data/data_for_gene_prediction_and_RNA-seq/Trinity*fasta > transcripts.fasta
perl -e 'while (<>) { print "$1\n" if />(\S+)/ }' /opt/00.incipient_data/data_for_gene_prediction_and_RNA-seq/Trinity.fasta > tdn.accs
# 对 transcripts 序列进行 end-trimming (vector, adaptor, primer, polyA/T tails)
seqclean transcripts.fasta -v /opt/biosoft/PASApipeline-v2.3.3/UniVec/UniVec
# real 2m32.771s
# user 2m32.096s
# sys 0m1.013s
# 生成比对配置文件
cp /opt/biosoft/PASApipeline-v2.3.3/pasa_conf/pasa.alignAssembly.Template.txt alignAssembly.config
DATE=`date +%Y%m%d`
User=`whoami`
echo "perl -p -i -e 's/DATABASE=.*/DATABASE=pasa_${DATE}_$User/' alignAssembly.config" | sh
# 生成 mysql 数据库及表
/opt/biosoft/PASApipeline-v2.3.3/scripts/create_mysql_cdnaassembly_db.dbi -r -c alignAssembly.config -S /opt/biosoft/PASApipeline-v2.3.3/schema/cdna_alignment_mysqlschema
# 运行 PASA 主程序,将 transcripts 序列比对到基因组上,得到去冗余的转录子序列、转录子和基因组的比对结果和可变剪接信息
/opt/biosoft/PASApipeline-v2.3.3/Launch_PASA_pipeline.pl -c alignAssembly.config -R -g genome.fasta -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS gmap,blat --CPU 8 --stringent_alignment_overlap 30.0 --TDN tdn.accs --MAX_INTRON_LENGTH 20000 --TRANSDECODER &> pasa.log
# real 10m21.260s
# user 14m48.870s
# sys 2m14.255s
# 链特异性测序需要加入参数 --transcribed_is_aligned_orient
# 真菌等小基因组,由于基因比较稠密,需要加入参数 --stringent_alignment_overlap
基因组组装与注释流程
1508

被折叠的 条评论
为什么被折叠?



