task4c-研究最热门的基因是什么

基因研究与PubMed文献分析
该博客介绍了如何从NCBI资源中提取基因与PubMed文献的关联数据,并展示了如何处理和分析这些数据,特别是关于TP53基因的研究。通过解析XML文件获取文献的年份信息,进一步统计和可视化基因在过去30年中的研究趋势,以TP53为例展示了年份与文献数量的关系图表。

作业链接

作业题目

gene2pubmed.gz 约50M文件里面的信息太丰富了,有1333万行信息,仅仅是人类就有159万行的文献,涉及到3万9千的基因数量,绝大部分基因都是如过眼云烟,很少人去研究它。
我们的TP53能拔得头彩也是不容易,但它也有自己的发展规律,希望大家可以更细致去探索 ftp://ftp.ncbi.nlm.nih.gov//gene 里面的文件。
比如这样的top 100的基因词云,其实可以做出来最近30年的变化规律,只需要你去找到文献的时间年份信息,进行拆分,每个年份独立统计绘图即可。

entrez ID 和年份信息提取

基因entrez ID和pubmed id的对应信息 下载:ftp://ftp.ncbi.nlm.nih.gov//gene/DATA/gene2pubmed.gz

$ zcat gene2pubmed.gz |awk 'NR==1 || $1=="9606"' |wc -l
1653326 #目前pubmed中人类的文献有1653325篇文献

pubmed id和文章发表时间的对应信息 下载链接:https://ftp.ncbi.nlm.nih.gov/pubmed/baseline/
把该ftp下的xml.gz 和xml.gz.md5两种文件全部下载下来了,一共大概30G,2124个文件
*xml.gz文件1062个

把md5文件合并成一个md5.txt文件

cat *md5 |perl -nle '{/MD5\((.*?)\)=\s+(\w+$)/;print "$2\t$1"}' >md5.txt
$ head md5.txt 
02960ff0fa7de8ca936d93e66c4d1474	pubmed21n0001.xml.gz
5f6439782c8344314f53aacfa9fbbcee	pubmed21n0002.xml.gz
14cd080a2913d73460e0d9be36a40c38	pubmed21n0003.xml.gz
32a203915334ab883b74212fb776f687	pubmed21n0004.xml.gz
6e410e4d62ac622d2a4a24073cbe15c3	pubmed21n0005.xml.gz
185427245e984126fed1bd1239aa782c	pubmed21n0006.xml.gz
144eb0f8df231faec6f27e8f1d07bc70	pubmed21n0007.xml.gz
3ad439edfcd3987e1298baf84a41f6c0	pubmed21n0008.xml.gz
97267082bf3fed1d48e78559a6d12b65	pubmed21n0009.xml.gz
b254ae36145761118eb10a17c9d13273	pubmed21n0010.xml.gz

md5值检验-确保下载下来的数据的完整性

$ md5sum -c md5.txt 
pubmed21n0001.xml.gz: 确定
pubmed21n0002.xml.gz: 确定
pubmed21n0003.xml.gz: 确定
pubmed21n0004.xml.gz: 确定
pubmed21n0005.xml.gz: 确定
pubmed21n0006.xml.gz: 确定
pubmed21n0007.xml.gz: 确定
pubmed21n0008.xml.gz: 确定
pubmed21n0009.xml.gz: 确定
......

xml数据格式
一大堆xml.gz的数据,接下来的问题就是如何 快速便捷的提取pubmed id 和 文章发表年份的信息。

$ ls data/*gz |head
data/pubmed21n0001.xml.gz
data/pubmed21n0002.xml.gz
data/pubmed21n0003.xml.gz
data/pubmed21n0004.xml.gz
data/pubmed21n0005.xml.gz
data/pubmed21n0006.xml.g
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值