NCBI-homologene数据库的初步探索

HomoloGene数据库提供物种间的同源基因数据,例如在build68中包含44233组同源基因,涉及21个物种。通过FTP地址可以下载数据,并通过HID去重得到基因组。其中,人类基因(TaxonomyID为9606)有19129个有对应同源基因。这个资源对于比较基因组学和进化研究非常有价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HomoloGene数据库就是用来查找物种间对应的同源基因

ftp地址:

ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data

homologene.data存放着不同物种之间同源基因的对应关系

nohup wget -c 'ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data' & #下载数据
echo -e "HID(HomoloGene_group_id)\tTaxonomyID\tGeneID\tGeneSymbol\tProtein_gi\tProtein_accession" |cat - homologene.data >mid && mv mid homologene.data #给homologene.data文件加上列名

$ head -5 homologene.data |column -t
HID(HomoloGene_group_id)  TaxonomyID  GeneID  GeneSymbol  Protein_gi  Protein_accession
3                         9606        34      ACADM       4557231     NP_000007.1
3                         9598        469356  ACADM       160961497   NP_001104286.1
3                         9544        705168  ACADM       109008502   XP_001101274.1
3                         9615        490207  ACADM       545503811   XP_005622188.1

根据HID去重之后的个数,得到44233组同源基因

$ awk 'NR>1{print $1}' homologene.data |sort -u |wc -l
44233

根据TaxonomyID得到目前共21个物种

$ awk 'NR>1{print $2}' homologene.data |sort -u |wc -l
21

每个物种都有一个对应的Taxonomy ID

10090   Mus musculus
10116   Rattus norvegicus
28985   Kluyveromyces lactis
318829  Magnaporthe oryzae
33169   Eremothecium gossypii
3702    Arabidopsis thaliana
4530    Oryza sativa
4896    Schizosaccharomyces pombe
4932    Saccharomyces cerevisiae
5141    Neurospora crassa
6239    Caenorhabditis elegans
7165    Anopheles gambiae
7227    Drosophila melanogaster
7955    Danio rerio
8364    Xenopus (Silurana) tropicalis
9031    Gallus gallus
9544    Macaca mulatta
9598    Pan troglodytes
9606    Homo sapiens
9615    Canis lupus familiaris
9913    Bos taurus   

数据库中包含的人类基因数:19129,也就是说这些基因有其它物种的同源基因对应关系

$ awk 'NR>1 && $2=="9606"' homologene.data |wc -l
19129
参考:

https://www.jianshu.com/p/877d6f3cc799

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值