task4c-研究最热门的基因是什么

最新推荐文章于 2025-11-24 09:40:16 发布

原创

最新推荐文章于 2025-11-24 09:40:16 发布 · 326 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#perl #r语言

该博客介绍了如何从NCBI资源中提取基因与PubMed文献的关联数据，并展示了如何处理和分析这些数据，特别是关于TP53基因的研究。通过解析XML文件获取文献的年份信息，进一步统计和可视化基因在过去30年中的研究趋势，以TP53为例展示了年份与文献数量的关系图表。

作业链接

作业题目

gene2pubmed.gz 约50M文件里面的信息太丰富了，有1333万行信息，仅仅是人类就有159万行的文献，涉及到3万9千的基因数量，绝大部分基因都是如过眼云烟，很少人去研究它。
我们的TP53能拔得头彩也是不容易，但它也有自己的发展规律，希望大家可以更细致去探索 ftp://ftp.ncbi.nlm.nih.gov//gene 里面的文件。
比如这样的top 100的基因词云，其实可以做出来最近30年的变化规律，只需要你去找到文献的时间年份信息，进行拆分，每个年份独立统计绘图即可。

entrez ID 和年份信息提取

基因entrez ID和pubmed id的对应信息下载:ftp://ftp.ncbi.nlm.nih.gov//gene/DATA/gene2pubmed.gz

$ zcat gene2pubmed.gz |awk 'NR==1 || $1=="9606"' |wc -l
1653326 #目前pubmed中人类的文献有1653325篇文献

pubmed id和文章发表时间的对应信息下载链接:https://ftp.ncbi.nlm.nih.gov/pubmed/baseline/
把该ftp下的xml.gz 和xml.gz.md5两种文件全部下载下来了，一共大概30G，2124个文件
*xml.gz文件1062个

把md5文件合并成一个md5.txt文件

cat *md5 |perl -nle '{/MD5\((.*?)\)=\s+(\w+$)/;print "$2\t$1"}' >md5.txt

$ head md5.txt 
02960ff0fa7de8ca936d93e66c4d1474	pubmed21n0001.xml.gz
5f6439782c8344314f53aacfa9fbbcee	pubmed21n0002.xml.gz
14cd080a2913d73460e0d9be36a40c38	pubmed21n0003.xml.gz
32a203915334ab883b74212fb776f687	pubmed21n0004.xml.gz
6e410e4d62ac622d2a4a24073cbe15c3	pubmed21n0005.xml.gz
185427245e984126fed1bd1239aa782c	pubmed21n0006.xml.gz
144eb0f8df231faec6f27e8f1d07bc70	pubmed21n0007.xml.gz
3ad439edfcd3987e1298baf84a41f6c0	pubmed21n0008.xml.gz
97267082bf3fed1d48e78559a6d12b65	pubmed21n0009.xml.gz
b254ae36145761118eb10a17c9d13273	pubmed21n0010.xml.gz

md5值检验-确保下载下来的数据的完整性

$ md5sum -c md5.txt 
pubmed21n0001.xml.gz: 确定
pubmed21n0002.xml.gz: 确定
pubmed21n0003.xml.gz: 确定
pubmed21n0004.xml.gz: 确定
pubmed21n0005.xml.gz: 确定
pubmed21n0006.xml.gz: 确定
pubmed21n0007.xml.gz: 确定
pubmed21n0008.xml.gz: 确定
pubmed21n0009.xml.gz: 确定
......

xml数据格式
一大堆xml.gz的数据，接下来的问题就是如何快速便捷的提取pubmed id 和文章发表年份的信息。

$ ls data/*gz |head
data/pubmed21n0001.xml.gz
data/pubmed21n0002.xml.gz
data/pubmed21n0003.xml.gz
data/pubmed21n0004.xml.gz
data/pubmed21n0005.xml.gz
data/pubmed21n0006.xml.g

最低0.47元/天解锁文章