作业题目
gene2pubmed.gz 约50M文件里面的信息太丰富了,有1333万行信息,仅仅是人类就有159万行的文献,涉及到3万9千的基因数量,绝大部分基因都是如过眼云烟,很少人去研究它。
我们的TP53能拔得头彩也是不容易,但它也有自己的发展规律,希望大家可以更细致去探索 ftp://ftp.ncbi.nlm.nih.gov//gene 里面的文件。
比如这样的top 100的基因词云,其实可以做出来最近30年的变化规律,只需要你去找到文献的时间年份信息,进行拆分,每个年份独立统计绘图即可。
entrez ID 和年份信息提取
基因entrez ID和pubmed id的对应信息 下载:ftp://ftp.ncbi.nlm.nih.gov//gene/DATA/gene2pubmed.gz
$ zcat gene2pubmed.gz |awk 'NR==1 || $1=="9606"' |wc -l
1653326 #目前pubmed中人类的文献有1653325篇文献
pubmed id和文章发表时间的对应信息 下载链接:https://ftp.ncbi.nlm.nih.gov/pubmed/baseline/
把该ftp下的xml.gz 和xml.gz.md5两种文件全部下载下来了,一共大概30G,2124个文件
*xml.gz文件1062个
把md5文件合并成一个md5.txt文件
cat *md5 |perl -nle '{/MD5\((.*?)\)=\s+(\w+$)/;print "$2\t$1"}' >md5.txt
$ head md5.txt
02960ff0fa7de8ca936d93e66c4d1474 pubmed21n0001.xml.gz
5f6439782c8344314f53aacfa9fbbcee pubmed21n0002.xml.gz
14cd080a2913d73460e0d9be36a40c38 pubmed21n0003.xml.gz
32a203915334ab883b74212fb776f687 pubmed21n0004.xml.gz
6e410e4d62ac622d2a4a24073cbe15c3 pubmed21n0005.xml.gz
185427245e984126fed1bd1239aa782c pubmed21n0006.xml.gz
144eb0f8df231faec6f27e8f1d07bc70 pubmed21n0007.xml.gz
3ad439edfcd3987e1298baf84a41f6c0 pubmed21n0008.xml.gz
97267082bf3fed1d48e78559a6d12b65 pubmed21n0009.xml.gz
b254ae36145761118eb10a17c9d13273 pubmed21n0010.xml.gz
md5值检验-确保下载下来的数据的完整性
$ md5sum -c md5.txt
pubmed21n0001.xml.gz: 确定
pubmed21n0002.xml.gz: 确定
pubmed21n0003.xml.gz: 确定
pubmed21n0004.xml.gz: 确定
pubmed21n0005.xml.gz: 确定
pubmed21n0006.xml.gz: 确定
pubmed21n0007.xml.gz: 确定
pubmed21n0008.xml.gz: 确定
pubmed21n0009.xml.gz: 确定
......
xml数据格式
一大堆xml.gz的数据,接下来的问题就是如何 快速便捷的提取pubmed id 和 文章发表年份的信息。
$ ls data/*gz |head
data/pubmed21n0001.xml.gz
data/pubmed21n0002.xml.gz
data/pubmed21n0003.xml.gz
data/pubmed21n0004.xml.gz
data/pubmed21n0005.xml.gz
data/pubmed21n0006.xml.g
基因研究与PubMed文献分析

该博客介绍了如何从NCBI资源中提取基因与PubMed文献的关联数据,并展示了如何处理和分析这些数据,特别是关于TP53基因的研究。通过解析XML文件获取文献的年份信息,进一步统计和可视化基因在过去30年中的研究趋势,以TP53为例展示了年份与文献数量的关系图表。
最低0.47元/天 解锁文章
2900

被折叠的 条评论
为什么被折叠?



