数据洪流:e-Science视角下的挑战与机遇
1. e-Science数据的爆发式增长
如今,e-Science领域的数据量正呈现出前所未有的增长态势。以生物信息学为例,蛋白质数据量若仅考虑基本信息,可达200GB;若加入X射线结构测量数据,数据量将急剧膨胀至数PB;再考虑每个蛋白质的潜在药物靶点数据,每个蛋白质可能会有多达1000个数据集。此外,探索人类基因组的遗传变异时,又会引入新维度的数据。
电子同步加速器产生X射线数据的情况也能说明数据增长之快。当前一代加速器每个实验站每天能产生约1TB的X射线数据,而正在建设的下一代“DIAMOND”同步加速器,其“首日”光束线每年将产生数PB的数据,这些数据大多需要传输、分析和管理。
目前,商业数据库是电子存储和分析的最大数据集合,通常存储在关系型数据库管理系统(RDBMS)中,如Oracle、DB2或SQL Server,最大的商业数据库规模在数十TB到100TB之间。但在未来几年,科学数据存档的数据量将大幅超过商业系统,这一转变既带来了挑战,也蕴含着机遇。下一代网格中间件的数据访问、集成和联合能力,将对e-Science和e-Business起到关键作用。
1.1 数据量的归一化参考
为了更好地理解庞大的数据量,以下是一些常见事物与数据量的大致对应关系:
|事物|数据量|
| ---- | ---- |
|一部长篇小说|1MB|
|《圣经》|5MB|
|一首压缩后的莫扎特交响曲|10MB|
|CD版《牛津英语词典》|500MB|
|一部压缩后的数字电影|10GB|
|年度同行评审期刊文献(约20000种期刊
超级会员免费看
订阅专栏 解锁全文
772

被折叠的 条评论
为什么被折叠?



