基因目录分析与元数据挖掘实战
1. 基因目录数据获取与初步分析
在进行基因目录分析时,我们首先需要获取相关数据。这里我们以人类染色体 11 的已发布基因目录为例,从公共领域复制可用数据,并使用 Jython 脚本进行必要操作。
1.1 数据获取步骤
- 从指定网页下载包含基因目录的 CSV 文件。
- 将文件显示在 CSV 浏览器中进行初步查看。
以下是实现该步骤的代码:
from jhplot.io.csv import *
from jhplot import *
http='http://projects.hepforge.org/jhepwork/'
file='nature04632-s16-2.csv'
wget(http+'examples/data/'+file)
r=CSVReader(file,',')
SPsheet(r)
如果上述网页地址无法访问,可以使用镜像站点,将 http
地址替换为以下字符串:
http='http://jhepwork.sourceforge.net/'
# 或者
http='http://jwork.org/jhepwork/'
通过对该文件的可视化研究,我们发现每个基因符号由多个记录表征,每行代表一个基因的记录可视为一个“事件记录”,每个基因具有符号、名称、类别、位置、长度等信息。我们将以此文件