必须建筑师附体！像盖大楼那样打造数据即服务

大数网

于 2018-09-28 16:11:10 发布

阅读量572

点赞数

在数据洪流中，企业通过公有云服务构建数据处理和分析平台，可实现销售和毛利率的显著增长。云服务提供商需借鉴建筑师思维，从数据存储、数据库即服务到数据分析即服务，层层构建。借助软件定义存储和高性能计算硬件，如英特尔平台+Ceph技术，可有效支撑这一服务体系。

640?wx_fmt=gif

近两年产业界总用“数据洪流”来形容数据的大爆发，但如果我们真把它视作洪水，那么它只会带来冲击；如能积极发掘其潜藏的价值，它则可能变成一条流金之河，正如麦肯锡在研究中发现的那样：与竞争对手相比，能使用数据识别客户行为的企业，在销售增长率方面要高出85%，在毛利率方面会高出25%[1]。

640?wx_fmt=png

这个道理，其实大多数企业都清楚，但要构建完善的数据处理和分析平台，难度并不比构建AI应用平台低，对他们而言，通过公有云服务获得这种能力反而更现实。

640?wx_fmt=png

那么，云服务提供商应该怎样做，才能打造出一个高效、全面和可靠的数据即服务呢？根据先行者们的经验，导入“建筑师”思维是必需的，也就是说，要用盖大楼那样的思路来构建数据即服务。

就像起高楼必须先挖地基一样，云服务提供商首先要考虑数据即服务的“地基”，也就是数据存储的问题。在各行各业全面拥抱数字化趋势的今天，存储服务的要求更多地体现为：容量和性能要实现高效扩展，相关资源可进行灵活调配和快速交付。

接下来，在数据存储的“地基”之上，要筑起坚实的“楼体”，也就是提供数据库即服务，将繁琐的数据库预置、配置、优化、备份、安全、监控、联网、自动化、升级及维护等操作，全部交给自动化数据库管理系统来处理。

640?wx_fmt=png

最后一步，就是要在“楼体”上加装顶层，也就是大数据或数据分析即服务，海量数据将通过它的清洗、挖掘、分析和可视化等操作，提炼出高价值、易理解和检索的关键信息，或者说是洞察。

640?wx_fmt=png

云服务提供商还需要确保上述不同层级间各模块和功能之间能形成协作，而非各自为政。如金山云的数据即分析服务KMR（Kingsoft MapReduce），就与其对象存储KS3､表格数据库服务和关系型数据库服务（KRDS）实现了集成。其用例之一，就是用户可在得到分析结果后将其存入KS3，然后释放按时计费的KMR集群，以节省成本[2]。

640?wx_fmt=png

有了设计思路，云服务提供商就要操心“钢筋水泥”，即基础设施的选择了。由于这个体系自下而上，对硬件的需求从重存储，渐渐过渡到重计算，所以这两点就是考量的重点。

先谈存储，数据即服务应优先考虑软件定义存储，它利于创建跨服务产品使用，且易于管理和调配的共享存储资源池。

英特尔平台+Ceph技术是实施软件定义存储的理想之选。Ceph是目前唯一能提供开源存储、软件定义存储、企业级存储和统一存储（对象、块和文件）的解决方案。它与至强处理器搭配，再辅以英特尔智能存储加速库（让应用能使用至强加速与数据保护、完整性和安全性相关的任务）、高速缓存加速软件（让Ceph可通过智能缓存提高性能），以及高性能、低延迟、高稳定和耐用的英特尔固态盘和傲腾固态盘等技术，可输出令人满意的性能和总拥有成本。

640?wx_fmt=png

再谈计算，英特尔的优势更加明显：不仅有新一代至强可扩展处理器凭借全新微架构带来的加成，还有诸多开源和商业版本数据库及数据处理和分析技术，如Apache Hadoop、Spark、SAPHANA带来的“众星捧月”效果。两者融合就产出了一串更诱人的数据，如SAP HANA每小时执行的查询量可提高至1.5倍[3]，IBM DB2批量分析的平均速度提高至1.4倍[4]。

640?wx_fmt=png