2010年文件存储趋势:非结构化数据当道

2010年的IT开支压力虽未增大,但IT组织仍保持谨慎乐观态度,倾向于采用更具效率的服务导向架构。本文探讨了八大文件存储趋势,包括基于商品的向外扩展平台、统一存储的应用、绿色存储的复兴、基于政策的存储管理等。

毫无疑问,2009年是IT界近年来最艰难的一年之一,它给科技厂商和IT终端用户的预算计划带来了深远的影响。虽然2010年预算压力不会继续增 大,但是ESG的2010年IT开支意向调查[1]还是发现IT组织中普遍存在谨慎乐观的情绪:大多数组织已经从成本节约模式中走出,但是有可能继续控制 成本而不是采用增长模式。这可能会导致用户继续寻找可以减少存储架构复杂性以节约营运成本的方式。ESG认为非结构化数据的增长、向外扩展和统一存储平台 的日益成熟以及作为存储替代的云存储的崛起将促使用户开始解决非结构化数据存储的问题,并将他们的环境转型为更加具有效率的服务导向的架构。

2010 年值得关注的文件存储趋势

1. 数据中心对基于商品的向外扩展平台的兴趣在持续。受经济疲软的长期余震影响,用户和厂商都在追求这种解决方案。从用户这一方面来说,ESG在2008年底 /2009年初的研究表明用户对向外扩展NAS(网络附加存储)解决方案有很大兴趣。这种解决方案有良好的可扩展性、商业敏捷性和操作上的高效率[2]。 2009年IT开支放慢到接近停止增长,因此许多客户对向外扩展平台仍然还只是停留在兴趣阶段。2010年,ESG预计这种兴趣将转为实际的开支。一些大 厂商(比如EMC、日立数据系统、惠普和IBM、NetApp)继续投资于向外扩展产品并认证针对企业应用的基于商品的向外扩展架构。

2. 垂直整合堆栈和水平的基于服务的方法这两个不同的方式将加快发展。垂直整合堆栈包括惠普的X9720--这个系统整合了惠普的IBRIX Fusion软件、刀片服务器和StorageWorks阵列--IBM SONAS、NetApp 7G系列、ISilon的X、S和NL系列产品。水平的基于服务的方法包括采用商品硬件的Bycast StorageGrid和EMC Atmos。当然,每种方法都各有利弊:整合系统通常部署更快且更易于管理,每TB数据所要求的存储或系统管理员比例也比较低。但是这些解决方案是专用 的,从存储阵列到NAS设备到文件系统各方面会导致厂商锁定。水平的分层的方法让用户可以在每个层上选择最好的技术,而且可以灵活部署。水平方式的缺点是 它们的安装和管理往往更复杂--需要更高水平的专业服务支持来处理和部署这种解决方案--而且比起整合系统来说,每TB数据所要求的存储或系统管理员比例 更高。

3. 统一存储在二层以上应用中代替专门的SAN(存储局域网)和NAS。全球经济疲软导致用户继续缩减营运开支。用户总是需要针对不同应用部署新的专门存储系 统,因此越来越多的用户面临存储"复杂性疲劳症"。通过统一存储,用户可把存储当作一个灵活的池来进行规划和管理并支持基于块的和基于文件的数据,不需要 规划和管理各个单独的基于块和文件的存储环境。随需部署资源的灵活性可以帮助提高利用率,因为这样存储容量就不会被锁定在错误的存储类型,同时减少需要部 署的系统的数量。

4. 作为虚拟服务器和虚拟桌面环境的后端,统一存储继续发展。封装的虚拟服务器和虚拟桌面镜像毕竟只是文件。自从虚拟化浪潮开始以来,用户就一直在同文件后端 打交道。NetApp、VMware和思科这样的厂商联盟将加速这股浪潮。也就是说,ESG预计企业用户将在第一层应用中出于性能缘故而采用基于块的裸设 备镜像(RDM),而小型IT组织和第二层应用将采用完全封装的VM,即包含了操作系统、应用程序镜像和数据并可以使用NAS后端的VM。无论是何种方 式,统一存储都给了用户一个灵活存储虚拟机数据的方式。通过统一存储,用户无需再预测和购买不同的单独的SAN和NAS容量。

5. "绿色"重新成为潮流。尽管许多组织通过部署更高能效的架构可以明显减少营运成本,到2008年年底,"绿色"已经成为一种时尚词汇,这意味着一旦全球经 济恢复增长,IT用户和厂商会倾向于"绿色"的解决方案。2010年,用户将从战术上走出成本节约模式并将寻找可以减少环境影响的IT解决方案(这种方案 同时也有助于减少营运成本)。采用高容量磁盘驱动器的更有效的密集的存储系统将加快发展,帮助用户减少数据中心空间占用和能源/冷却成本。

6. 基于政策的存储管理获得更多关注。由于EMC在全自动存储分层(FAST)上的重大发布,自动存储分层在2009年获得了许多关注。ESG预计2010年 NAS厂商在这个领域上将有更多动作。分层和信息生命周期管理面临的一大障碍仍然是如何更好地对数据进行分类以便决定其合适的存储层。这项工作不能在存储 阵列内部完成。阵列是根据访问类型来迁移数据。通过文件元数据,我们可以在文件系统管理层上分类非结构化数据。

7. 对象存储继续仍然引人注目,但是发展没那么快。Panasas和EMC(拥有Atmos和Centera)等厂商提供基于对象的存储。基于对象的系统在大 小不等的"封装器"中同时承载数据和元数据。对象能带来一些明显的优点:例如,可以加入增强后的元数据并同提供增强管理功能的对象打包在一起。 Panasas可以将文件分解成多个关联的对象并将其条带化在多个节点中,同时使用并行通道来增强性能。不过,对象存储的问题和垂直整合系统的问题一样: 厂商锁定。一旦用户部署基于对象的存储系统,只要数据存在,用户就必须从这个厂商购买产品和服务。替代方式将是痛苦而漫长的迁移。对于一些用户而言,对象 存储系统的使用方便性、可扩展性和整体效率使得它们值得投资。受益于这些优点,EMC发售了许多Centera系统。Panasas看到许多用户也非常需 要它的并行架构所带来的大吞吐量。尽管基于对象的存储有许多潜在优点,但是像NFS(网络文件系统)和CIFS(通用互联网文件系统)这样的替代方案已经 有人采用,而且这些方案还是基于标准的和易于理解的--受验证过的和可靠的技术比较能够让IT人员省心。虽然迁移到基于对象的系统能带来许多优点,但是如 果考虑到锁定风险的话有可能是不值得的。

8. 非结构化数据推动公共云的发展。连接云存储"层"的本地网关将被越来越多的用户用于提高非关键数据的站内容量。用户仍然担心许多数据的合规问题和安全问 题,但是仍然有许多数据不需要锁闭和审计,尤其是在那些没有严格监管的行业,因此这种非关键数据非常适合于云存储。教育业就是一个很好的例子:大学可以方 便地利用云存储服务来管理学生主目录。你可以想象一下这对一个拥有上万学生的大学来说将是多大的成本节约。非关键数据的长期归档也是云存储的适合用途之 一。像Iron Mountain Digital这样的提供基于政策的归档保护和管理的云归档厂商将获得更多的业务。

9. 2010年厂商之间的兼并重组将继续进行。我们看到2009年惠普收购了IBRIX,LSI收购了OnStor。一些小型的NAS厂商仍然挣扎于2009 年低迷的用户开支环境中,而投资者仍然捂紧口袋。我们看到2009年的一个趋势就是用户减少了他们打交道的厂商数量以降低成本。当然,这些用户一般不会踢 开主要的IT提供商--不过这个现象对小型IT企业可不是好消息。市场传言戴尔正在寻找一些NAS厂商来增强其基于Windows的产品,戴尔也确认该公 司已经收购了向外扩展NAS厂商Exanet的资产。日立数据系统和IBM的NAS业务都很大程度上依赖于OEM(贴牌厂商)关系,因此这两家大公司如果 有什么动作的话,那也不用奇怪。

整体趋势

2010年,非结构化和基于文件的数据将继续迅速增加,而IT人员将继续要处理这个令人头疼的问题。现在,2008年底以来的预算约束已经稍微放松,用户正在走出成本节约和预算削减模式并寻求各种解决方案来实现长期营运成本节约。

更 有效地管理数据增长是首席信息官比较容易实现的目标之一,它可以节约IT成本和时间。过去15年来,数据中心主流的NAS架构实际上没有多少改变。这些系 统的设计是针对分布式计算环境,往往只能扩展到数百个磁盘驱动器。如今PB级环境已经在突破向上扩展系统的极限,导致存储系统性能下降并带来更复杂的存储 环境。除了成本增加外,这种复杂性还带来了风险:复杂的环境和针对复杂环境而设计的人工流程会抵消数据安全措施的有效性。如果没有非常大的工作表,在这种 环境下很难确定哪些数据存储在哪些存储系统中--而如果依赖于这种程度的人工操作,那么人工错误发生的几率也将增加,导致关键数据有可能在某些时候失去保 护。

许多IT管理员对变化是谨慎而抗拒的,这就是为什么IT上的变化通常要花很长时间,尤其是在存储领域。但是我们不要搞错:我们还是 会看到数据存储方式上的变化。IT人员的谨慎可以理解,无论现状多么糟糕,他们都不想因为重大架构修改搞砸而面临公司高层的训斥。不过,凡事都有一个临界 点。大型用户往往在电力和冷却资源的可用性上面临约束,而中型企业往往在空间上面临限制。复杂性以及与之相关的营运成本必须得到控制。现在已经有早期迹象 表明2010年企业领域的存储革新将加快脚步。当然,第一层应用有可能还是采用专用的向上扩展的系统,但是对于第二层以上的应用而言,朝向新模式的改变才 刚开始。

标题SpringBoot智能在线预约挂号系统研究AI更换标题第1章引言介绍智能在线预约挂号系统的研究背景、意义、国内外研究现状及论文创新点。1.1研究背景与意义阐述智能在线预约挂号系统对提升医疗服务效率的重要性。1.2国内外研究现状分析国内外智能在线预约挂号系统的研究与应用情况。1.3研究方法及创新点概述本文采用的技术路线、研究方法及主要创新点。第2章相关理论总结智能在线预约挂号系统相关理论,包括系统架构、开发技术等。2.1系统架构设计理论介绍系统架构设计的基本原则和常用方法。2.2SpringBoot开发框架理论阐述SpringBoot框架的特点、优势及其在系统开发中的应用。2.3数据库设计与管理理论介绍数据库设计原则、数据模型及数据库管理系统。2.4网络安全与数据保护理论讨论网络安全威胁、数据保护技术及其在系统中的应用。第3章SpringBoot智能在线预约挂号系统设计详细介绍系统的设计方案,包括功能模块划分、数据库设计等。3.1系统功能模块设计划分系统功能模块,如用户管理、挂号管理、医生排班等。3.2数据库设计与实现设计数据库表结构,确定字段类型、主键及外键关系。3.3用户界面设计设计用户友好的界面,提升用户体验。3.4系统安全设计阐述系统安全策略,包括用户认证、数据加密等。第4章系统实现与测试介绍系统的实现过程,包括编码、测试及优化等。4.1系统编码实现采用SpringBoot框架进行系统编码实现。4.2系统测试方法介绍系统测试的方法、步骤及测试用例设计。4.3系统性能测试与分析对系统进行性能测试,分析测试结果并提出优化建议。4.4系统优化与改进根据测试结果对系统进行优化和改进,提升系统性能。第5章研究结果呈现系统实现后的效果,包括功能实现、性能提升等。5.1系统功能实现效果展示系统各功能模块的实现效果,如挂号成功界面等。5.2系统性能提升效果对比优化前后的系统性能
在金融行业中,对信用风险的判断是核心环节之一,其结果对机构的信贷政策和风险控制策略有直接影响。本文将围绕如何借助机器学习方法,尤其是Sklearn工具包,建立用于判断信用状况的预测系统。文中将涵盖逻辑回归、支持向量机等常见方法,并通过实际操作流程进行说明。 一、机器学习基本概念 机器学习属于人工智能的子领域,其基本理念是通过数据自动学习规律,而非依赖人工设定规则。在信贷分析中,该技术可用于挖掘历史数据中的潜在规律,进而对未来的信用表现进行预测。 二、Sklearn工具包概述 Sklearn(Scikit-learn)是Python语言中广泛使用的机器学习模块,提供多种数据处理和建模功能。它简化了数据清洗、特征提取、模型构建、验证与优化等流程,是数据科学项目中的常用工具。 三、逻辑回归模型 逻辑回归是一种常用于分类任务的线性模型,特别适用于二类问题。在信用评估中,该模型可用于判断借款人是否可能违约。其通过逻辑函数将输出映射为0到1之间的概率值,从而表示违约的可能性。 四、支持向量机模型 支持向量机是一种用于监督学习的算法,适用于数据维度高、样本量小的情况。在信用分析中,该方法能够通过寻找最佳分割面,区分违约与非违约客户。通过选用不同核函数,可应对复杂的非线性关系,提升预测精度。 五、数据预处理步骤 在建模前,需对原始数据进行清理与转换,包括处理缺失值、识别异常点、标准化数值、筛选有效特征等。对于信用评分,常见的输入变量包括收入水平、负债比例、信用历史记录、职业稳定性等。预处理有助于减少噪声干扰,增强模型的适应性。 六、模型构建与验证 借助Sklearn,可以将数据集划分为训练集和测试集,并通过交叉验证调整参数以提升模型性能。常用评估指标包括准确率、召回率、F1值以及AUC-ROC曲线。在处理不平衡数据时,更应关注模型的召回率与特异性。 七、集成学习方法 为提升模型预测能力,可采用集成策略,如结合多个模型的预测结果。这有助于降低单一模型的偏差与方差,增强整体预测的稳定性与准确性。 综上,基于机器学习的信用评估系统可通过Sklearn中的多种算法,结合合理的数据处理与模型优化,实现对借款人信用状况的精准判断。在实际应用中,需持续调整模型以适应市场变化,保障预测结果的长期有效性。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值