practice1的一些问题

本文记录了一次RNA-seq数据处理的经历,包括安装配置软件如samtools、bowtie等,解决各种技术问题,以及如何正确提交作业到高性能计算集群。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

</pre>这次的数据处理,在开始之前就遇到不少问题。现在记录下来:<p></p><p>首先是装几个软件,samtools需要make一下,但是都说是make一下,怎么是make一下呢。就是解压后,cd进入samtools文件夹,没有samtools这个可执行文件,然后输入make samtools 就这样。可能我比较脑残,弄了10多分钟才想出来。</p><p>然后把samtools ,bowtie, bowtie-build, bowtie-inspect,tophat 所有,cufflinks所有可执行文件都cp到一个bin文件夹,反正我是随便mkdir的一个。 </p><p>2015年1月5日 14:34:02//需要声明的是,我使用的是2012年的Nature protocol,seq是模拟的,要使用tophat 1.3.2. 对于真实自然数据,可以用新的。</p><p><span style="font-family:Verdana,Arial,sans-serif; color:#444444"><span style="font-size:13px; line-height:20.4799995422363px">tophat官网说明</span></span></p><p><span style="color:rgb(68,68,68); font-family:Verdana,Arial,sans-serif; font-size:13px; line-height:20.4799995422363px">For those who want to follow our </span><span style="margin:0px; padding:0px; color:rgb(68,68,68); font-family:Verdana,Arial,sans-serif; font-size:13px; line-height:20.4799995422363px">Nature Protocols</span><span style="color:rgb(68,68,68); font-family:Verdana,Arial,sans-serif; font-size:13px; line-height:20.4799995422363px">, we suggest users use TopHat 1.3.2 (see the download links below) because TopHat 1.4.1 has some problems with running the protocols when mapping some of the simulated reads (e.g., C2_R2). These problems do not happen with real data, so reverting back to TopHat 1.3.2 is not necessary.</span></p><p></p><p>提交的脚本文件也遇到不少问题,之前在昆动用的都是pbs,然后这边就是sh,不知道是不是都可以,然后标准,我试过的格式都在工作目录下了。</p><p>有几个队列 用于PBS -q ***</p><p></p><p> bioque 包含176个计算节点。每个节点上单个任务最大可用内存20GB。每个任务占用最大核数不超过5个。</p><p> genomics包括80个计算节点。每个节点上单个任务最大可以占用内存12GB.每个任务占用核数小于等于6个。</p><p> Fat02que包括1个大内存节点.每个节点上单个任务最大可以占用1000GB内存。每个任务占用核数小于等于30个。</p><p> asmque包括5个大内存服务器。每个计算节点上单个任务占用最大内存500GB。每个任务占用核数小于等于30个。</p><p></p><p>然后提交任务,之前PBS -q 后面的写错了,一直让我check memory。最后还遇到script is written in DOS/Windows text format的问题。</p><p>解决办法:输入 dos2unix  <pbs-script-file> (就是dos2unix filename)</p><p>dsub ! ok</p><p>等结果吧,,这才只是第一步的map。</p><p></p><p>2015年1月5日 14:10:16 更新</p><p>我真是天真,在连续出错无数次过后,我终于R上了。</p><p>嗯,主要的问题是,在超算上始终没有本地方便,不能用交互式的命令。</p><p>第一个是,我发现还要用bowtie-build建库,就是bowtie-build **.fa  *****(name)  然后会生成6个ebwt文件,但是这一步有个问题,就是有个操作文件里还是有问题(.o文件),不知道库是不是有问题。然后我在bowtie(http://bowtie-bio.sourceforge.net/index.shtml)右边条的Pre-built index下载了<a target=_blank target="_blank" href="ftp://ftp.ccb.jhu.edu/pub/data/bowtie_indexes/d_melanogaster_fb5_22.ebwt.zip" style="padding:0px; margin:0px; color:rgb(0,102,179); text-decoration:none; border:0px; font-family:Verdana,Arial,sans-serif; font-size:13px; line-height:20.4799995422363px; background-color:rgb(239,239,239)"><span style="padding:0px; margin:0px">D. melanogaster</span>, Flybase, r5.22</a>这个建好的库,解压出来就有6个ebwt文件。然后放到data文件夹。</p><p>中间比较傻的地方是,我以为bowtie index 就必须放在bowtie/indexes这个文件夹里,其实随便了啊。</p><p>然后我在ensembl上下载的果蝇基因组,46M,本来以为用不上了,结果每次都说什么找不到FASTA file,用这个fa文件建的又不知道有没有问题,所以索性把它名字改的和在bowtie上下载的库的名字一样用了。//2015年1月5日 21:47:14更新,刚刚读bowtie manual,有一句<span style="color: rgb(68, 68, 68); font-family: Verdana, Arial, sans-serif; font-size: 13px; line-height: 20.4799995422363px;">The original sequence files are no longer used by Bowtie once the index is built.所以看来原来的fasta是不用的啦,不知道我的是什么问题</span></p><p></p><p>再一个问题就是,<span style="font-size:12px; color:rgb(85,85,85); line-height:1em">AttributeError: ‘NoneType’ object has no attribute ‘group’ ,这一步实在check samtools里出现的,查了半天以为是python什么的,反正大概原因就是tophat对于最近的samtools版本检测不了,在google group上看别人还写了补丁什么,我果断装了samtools的旧版本。终于R上了。</span></p><p><span style="font-size:12px; color:rgb(85,85,85); line-height:1em"></span></p><p><span style="font-size:12px; color:rgb(85,85,85); line-height:1em">粘上供自己用</span></p><p><span style="font-size:12px; color:rgb(85,85,85); line-height:1em"></span></p><pre name="code" class="plain">#!/bin/sh
#PBS -n map1
#PBS -q asmque
#PBS -l mem=10gb,walltime=06:00:00,nodes=1:ppn=4
#HSCHED -s hschedd

export PATH=$PATH:/share_bio/unis1/shipenglab/zhangjia/software/bowtie-1.1.1
export PATH=$PATH:/share_bio/unis1/shipenglab/zhangjia/software/samtools-0.1.17
export PATH=$PATH:/share_bio/unis1/shipenglab/zhangjia/software/tophat-1.3.2.Linux_x86_64

chmod u+x /share_bio/unis1/shipenglab/zhangjia/software/tophat-1.3.2.Linux_x86_64/tophat
/usr/bin/python
ln -s /share_bio/unis1/shipenglab/zhangjia/data/genes.gtf
cd /share_bio/unis1/shipenglab/zhangjia/data
tophat -p 8 -G genes.gtf -o C1_R1_thout d_melanogaster_fb5_22 C1_R1_1.fq C1_R1_2.fq
tophat -p 8 -G genes.gtf -o C1_R2_thout d_melanogaster_fb5_22 C1_R2_1.fq C1_R2_2.fq
tophat -p 8 -G genes.gtf -o C1_R3_thout d_melanogaster_fb5_22 C1_R3_1.fq C1_R3_2.fq
tophat -p 8 -G genes.gtf -o C2_R1_thout d_melanogaster_fb5_22 C2_R1_1.fq C2_R1_2.fq
tophat -p 8 -G genes.gtf -o C2_R2_thout d_melanogaster_fb5_22 C2_R2_1.fq C2_R2_2.fq
tophat -p 8 -G genes.gtf -o C2_R3_thout d_melanogaster_fb5_22 C2_R3_1.fq C2_R3_2.fq






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值