列注释_GEO的数据注释文件没有基因名肿么破?

点击蓝字

9c9f417779278a4c6f24949231e3596b.gif

关注我们

写在前面

我们在处理GEO芯片数据的时候,经常会碰到芯片的数据的注释文件没有提供基因名,只有基因的序列。替代的解决办法就是对所有的注释数据来进行批量的blast,利用注释文件提供的序列来通过blast获得具体的基因是什么。但是如果要进行大批量的blast的话,基本上就需要代码行来运行,而这样的操作就需要门槛了。所以今天给大家介绍一种简陋版的批量blast的方法,算是解决一些编程基础的同学的难题吧!

实例数据集介绍

这一次我们使用GSE114083来进行演示。这个数据集是一个关于胃癌的lncRNA的芯片数据。

a744628c2831c504a995c365e04432eb.png

我们点开这个数据库的注释文件,就会发现,这个注释文件只有基因序列是没有基因名的,这个我们在利用GEO2R进行差异表达分析的时候,得到的数据也就是没有基因名的。这个时候如果我又很想使用这个数据集的话。那就只能对这个表格当中的序列进行注释了。

019bcc9b3413d8f4eaaa21e439ddb9e1.png

基本操作

简陋版的基本原理还是主要还是利用NCBI里面的BLAST网站来进行分析的 (https://blast.ncbi.nlm.nih.gov/Blast.cgi)。由于做的是核酸的BLAST,所以我们在这里需要选择核酸比对。

3bf3be3eca5fbae02066350b241e55ca.png

在核酸比对的网页当中,有一个提供上传文件的选项。在这里上传的是一个fasta的格式的文件,所以我们需要利用数据集的序列来构建一个fasta的序列。

164943f3db08c94ac27c812fd028f09c.png

那怎么才能批量的构建这些序列的fasta的文件呢?这里我面提供一个excel函数操作的例子吧。当然大家有更好的方法同样可以使用。

1.我们需要把数据集的探针ID和序列提取处理放到excel当中。 c8354878ca0e4f3cde61665a0c13b326.png 2.由于fa的文件对于序列的注释是有通过>来进行,所以我们首先需要对芯片ID添加>。这里我们可以在两列之间添加一个空白列,然后输入:=">"&A1

dbfdc7438489a0c0a3226d967cad36d0.gif

3.fa的格式需要第一行是>的注释,下面一行是序列的文件。所以我们需要把注释信息和后面序列合并到一起。这个时候我们可以在后面的空白处输入: =OFFSET(B$1,INT((ROW(A1)-1)/2),MOD(ROW(A1)-1,2))

13225704f3db389c8199da20ef3d09f4.gif

 4.这样我们就得到了一列是符合fa数据格式的列了。我们复制这一列的数据,然后把它粘贴到txt文件里面。

eb3c983e8cd72bd8b9c3dbcfc45a10c3.png  

5.最后把txt的文件改成fa后缀即可。

d2a44322d7b49cedf0a90815d90e544c.png 

6.有了fasta文件就可欢快的去blast。

ceccb276da8ad644483cbdf91b3f99ff.png

结果处理

以上就是基本的blast过程了。我面只需要等一会儿就可以得到所有blast的结果了。在结果当中,我面只需要在下载当中下载csv文件即可。

f439a068bf68bb04da4cf3148243fc5e.png

下载下来的结果是这个样子的,我们可以看到数据的第一列是探针的ID,第二列则是比对的选择的提geneid。   

cf07e4f4dcaa7911d192a29d5f363548.png 这个时候需要去除掉geneid小数点和后面的数字就可以进行ID转换了。具体ID转换的工具可以见我们的第二条推送。 写在后面

以上就是简单的批量blast的基本过程了。这种基本上也就是适用于少量的序列blast。比如差异表达分析完之后的那些可以试一下,网页版的还是如果序列过多可能会很慢,所以如果序列过多的话还是建议用代码哦。

f9f179b8e1ced3d58df7669d8a263f23.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值