98、数据洪流:e-Science视角下的挑战与机遇

数据洪流:e-Science视角下的挑战与机遇

1. e-Science数据的爆发式增长

如今,e-Science领域的数据量正呈现出前所未有的增长态势。以生物信息学为例,蛋白质数据量若仅考虑基本信息,可达200GB;若加入X射线结构测量数据,数据量将急剧膨胀至数PB;再考虑每个蛋白质的潜在药物靶点数据,每个蛋白质可能会有多达1000个数据集。此外,探索人类基因组的遗传变异时,又会引入新维度的数据。

电子同步加速器产生X射线数据的情况也能说明数据增长之快。当前一代加速器每个实验站每天能产生约1TB的X射线数据,而正在建设的下一代“DIAMOND”同步加速器,其“首日”光束线每年将产生数PB的数据,这些数据大多需要传输、分析和管理。

目前,商业数据库是电子存储和分析的最大数据集合,通常存储在关系型数据库管理系统(RDBMS)中,如Oracle、DB2或SQL Server,最大的商业数据库规模在数十TB到100TB之间。但在未来几年,科学数据存档的数据量将大幅超过商业系统,这一转变既带来了挑战,也蕴含着机遇。下一代网格中间件的数据访问、集成和联合能力,将对e-Science和e-Business起到关键作用。

1.1 数据量的归一化参考

为了更好地理解庞大的数据量,以下是一些常见事物与数据量的大致对应关系:
|事物|数据量|
| ---- | ---- |
|一部长篇小说|1MB|
|《圣经》|5MB|
|一首压缩后的莫扎特交响曲|10MB|
|CD版《牛津英语词典》|500MB|
|一部压缩后的数字电影|10GB|
|年度同行评审期刊文献(约20000种期刊

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值