“云计算”时代的海量数据存储与管理
关键词:云计算 数据存储 2011年10月14日,中国计算机学会(CCF)在北 京举办的青年计算机科技论坛(YOCSEF)以“‘云计算’时代的海量数据存储与管理”为题,针对 “云”时代条件下对存储设备的需求和大数据管理面 临的问题,邀请学者、厂商、终端用户三方代表对相 关的问题做了深入研讨。中国科学院计算技术研究所 研究员许鲁,EMC中国研究院院长、研发中心首席技 术官陶波和淘宝副总裁、高级研究院院长阳振坤等专 家分别从不同角度发表了自己的看法。
郭 莉 王树鹏 中国科学院计算技术研究所
大数据,大机遇
随着存储设备性价比的攀升,目前数据的存储 量呈现快速膨胀的趋势。大数据要求存储系统的容 量和性能具有极大的可扩展性。EMC从存储设备供 应商角度提出通过合存储设备、文件系统和数据分 析工具来构建完整的大数据分析堆栈,支持云时代 下企业级别的大数据分析与管理。
(1)采用基于 NAS的文件数据组织系统Isilon作为底层可线性扩容 解决方案。Isilon单个文件系统中超过15PB的存储 规模,支持高达85GB/s的吞吐量和1.2MB的IOPS, 具有高可靠性和自我修复能力,易于管理和系统线 性扩展的功能;
(2)提供企业级的Hadoop与大数 据处理与分析整套的数据解决方案,包括企业级的 Hadoop,海量数据并行数据库GreenPlum,以及企 业级数据处理与分析云平台Chorus等。
面向云环境的存储系统展望
云存储服务下的存储系统与传统的存储系统 相比主要具有如下的不同点:云存储系统需要提供 面向多种类型的网络在线存储服务,而传统的存储 系统仅提供数据本地存储,易形成信息孤岛;云存 储系统需要考虑数据的安全、可靠、以及效率等指 标,尤其在多用户,复杂网络环境下提供可靠的、 高效的存储服务面临更大的挑战。 因此,为了构建高可靠存储系统,应充分划分元 数据服务和文件服务集群粒度,合理分布数据(元数据),通过服务聚合、服务均衡和服务接管等技术提 高文件(元数据)服务集群的服务质量。为了构建高 适用的存储系统,在云环境下的多态环境和众多复杂 的应用程序中,应建立一种面向应用的便捷的资源管 理机制,通过针对具体应用模式优化资源管理,进一 步提供定制的资源管理服务机制。
海量数据存储与管理
淘宝网目前已发展成为具有3.7亿用户的大规模 网站,每天支持4~5千万次更新操作,每天产生的 更新数据量超过2.5TB。他们提出了符合自身业务 需求的高性能分布式数据库Oceanbase。 Oceanbase突破了传统的DBMS无法适用于大规 模的数据存储与高效并发访问量的瓶颈。利用普通 的服务器搭建服务器集群,降低了硬件投资预算。 Oceanbase具有访问效率高、数据容错,以及负载均衡等显著特征。Oceanbase系统的设计思想是分离 动态数据与基准数据,动态数据单独存放在Update Server上,接收所有用户的更新操作;基准数据分 布存放在多个节点上,支持数据并发读取操作。定 期的把增量数据合并到基准数据上,以此提高数据 的访问效率和批量更新效率。为了实现数据的一致 性,所有的写操作序列化串行访问,满足强一致性 的要求;为了提高基准数据的读取效率,采用列存 储结构,提高数据检索并取消随机读带来的I/O负 载。Oceanbase支持范围查询,跨表读事务,左连 接,以及数据增量合并、批量数据导入等功能。为 了提高数据的可靠性Oceanbase引入快照技术,副本技术,以及同城热备、异地灾备等数据冗余存放 策略,提高关键数据的容灾性能。Oceanbase能够实 现写事务、跨行跨表事务等。
未有的挑战,传统硬件设备厂商、研究学者、以及 终端用户,在云时代条件下都具有自己的认识和思 考,并积累了大量的宝贵经验和有效工具,目前建 立基于云存储服务的大数据管理与分析的基本条件 已经具备,存储领域将会迎来新一轮的发展机遇; 云计算时代的海量数据存储与管理问题是云时 代发展需要解决的必然问题,同时也能够为业界带 来新的发展机遇。解决云时代的大数据分析管理面 临问题需要研究学者,设备厂商和终端用户一起携 手,突破传统存储系统的设计理念,建立新的有效 的合作机制,重新优化并界定存储服务在整个云计 算领域的功能和角色,一起为迎接云时代条件下的 大数据分析和管理挑战做好准备。
结语
在云时代环境下,存储系统需要摒弃传统存储 系统的“黑盒”观点,充分结合终端用户的应用需 求,优化存储系统性能,建立自上而下的垂直流水 线技术;最终实现在多态、复杂的云计算环境提供 可靠、定制的云存储服务;大数据管理和分析产生大量新的机遇。
■ 郭 莉
CCF高级会员。CCF YOCSEF学术委员 会学术秘书。中国科学院计算技术研究 所信息安全研究中心主任。主要研究领 域为网络信息安全。
■王树鹏
中国科学院计算技术研究所信息安全研 究中心副研究员。主要研究方向为海量 数据存储和灾备。
天津理工大学
2011年10月20日,“CCF走进高校”系列活动在天津理工大学计算机与通信学院举行。中国计算机 学会理事、启明星辰公司首席战
略官潘柱廷作了题为“信息安全的多视角观察”的学术报告。报告会 由天津理工大学计算机与通信工程学院院长王劲松教授主持。潘柱廷用幽默风趣的语言,介绍了信息 安全的主流技术、产业态势、进化方向、研究热点与应用脉络。报告持续了三个多小时。 天津理工大学是一所以工为主,工理结合,工、理、文、管等多学科协调发展的天津市属重点多 科性大学,有两个校区,分别是主校区和王顶堤校区。天津理工大学原名天津理工学院,1978年开始 筹建,1996年,原天津理工学院与天津理工学院一分院(原天大机电分校)、二分院(原天大分校)和天 津大学冶金分校合并,组建新的天津理工学院。2004年,经国家教育部批准,天津理工学院更名为天 津理工大学。