
揭秘云计算与大数据
文章平均质量分 90
内容以真实的案例和数据为基础,讲述云计算和大数据知识,力求理论联系实际,深入浅出,尽量避免深奥的理论推导,语言尽可能通俗易懂。
XAI嬴图
实时图数据库赋能万物关联
展开
-
揭秘大数据 | 18、关于流数据管理的那些事儿
老夫之前就讲过,大数据一般被分为就是其中之一。感兴趣的朋友,可以点击以下文章进行温故知新:来自这样一个概念:数据的价值随着时间的流逝而降低,所以在事件发生后需要尽快对其进行处理,最好是在事件发生时就进行处理(即实时处理),对事件进行一个接一个的处理,而不是缓存起来进行批处理(如Hadoop)。在数据流管理中,需要处理的输入数据并不被存储在可随机访问的磁盘或逻辑缓存中,它们以数据流的方式源源不断地到达。①实时性:数据流中的数据实时到达,需要实时处理。②无边界:数据流是源源不断的,大小不定。原创 2025-04-07 14:32:12 · 633 阅读 · 0 评论 -
揭秘大数据 | 17、MPP 那些事儿
Greenplum是业界第一个开源的MPP数据库,对想要实现OLTP和OLAP一体化大数据分析与管理系统的人来说,这是个天大的好消息。例如在大数据分析和处理中,MPP 数据库可以将数据分布在多个节点上进行并行处理,从而提高处理速度和效率。和MapReduce类似,两者都采用大规模并行处理架构对海量数据进行以大数据分析为主的工作,不同之处在于MPP通常原生支持并行的关系型查询与应用(不过这一点,Hadoop阵营也在逐渐通过在HDFS之上提供SQL查询接口来支持查询,甚至包括关系型查询)。原创 2025-04-03 18:02:37 · 290 阅读 · 0 评论 -
揭秘大数据 | 15、OLTP 的那些事儿
数据中的不同记录可能有不同的属性和格式。当插入数据时,并不需要预先定义它们的模式(如MongoDB,后文中将会介绍)。NoSQL和传统的关系数据库的对比如图1所示。可以看出,NoSQL数据库无数据清洗,无数据转换,无数据加载,并且在数据存储处进行分析。原创 2025-04-01 12:15:23 · 898 阅读 · 0 评论 -
揭秘大数据 | 14、大数据的五大问题 之 大数据应用
大数据所面临的五大问题中最后一个是,这也是大数据问题的具象(最终展现形式)。如果高度概括大数据的生命周期,那么可以归纳为:大数据来源+大数据技术+大数据应用,如图1所示。三者缺一不可、彼此相承。原创 2025-03-26 10:29:39 · 609 阅读 · 0 评论 -
揭秘大数据 | 13、大数据的五大问题 之 数据科学
数据科学是一个热门的领域,而数据科学家是拥有特殊技能的专业人才,负责为复杂的业务建模,从海量数据中洞察先知并找到新的商业机遇。它们结合了统计分析、模式识别、机器学习、深度学习等技术,获取数据中的信息,形成推断及洞察力,所采用的相关方法包括回归分析、关联规则(如购物篮分析)、优化技术和仿真(如用于构建场景结果的蒙特卡洛仿真)。商业智能的组件及功能如下。图1描述了数据科学的典型流程,涉及原始数据的采集、清洗、基于规则或模型的数据处理与分析、建模+算法、汇总+可视化、决策、大数据产品(可选)等多个环节。原创 2025-03-25 11:58:08 · 647 阅读 · 0 评论 -
揭秘大数据 | 12、大数据的五大问题 之 大数据管理与大数据分析
以数据库交易为例,要实现ACID,最关键的部分是数据的一致性,通常的做法是通过加锁的方式,在一个读写方对某数据进行读写的时候,让其他读写方只能等待。或者对方没收到,而你的钱被扣掉了(被坑了的感觉)。构建面向海量信息的大数据管理平台,其本质上是要实现一个可软件定义的数据中心来对下层的基础架构进行有效的管理(存储、网络、计算及相关资源的调度、分配、虚拟化、容器化等),以满足上层的业务与应用需求,并通过软件的灵活性与敏捷性实现高的总投资收益率(Return on Investment,ROI)。原创 2025-03-24 16:13:03 · 1051 阅读 · 0 评论 -
揭秘大数据 | 11、大数据的五大问题 之 大数据存储
在这样的背景下,一种新的存储管理模式开始出现,那就是软件定义存储。软件定义存储不同于存储虚拟化,软件定义存储的设计理念与软件定义网络(Software Defined Network,SDN)有着诸多相似之处。软件定义存储旨在开辟一个如下的新世界。(1)把数据中心中所有物理的存储设备转化为一个统一的、虚拟的、共享的存储资源池,其中存储设备包括专业的SAN/NAS存储产品,也包括内置存储设备和DAS。这些存储设备可以是同构的,也可以是异构的,还可以是来自不同厂商的。原创 2025-03-20 15:13:15 · 1092 阅读 · 0 评论 -
揭秘大数据 | 10、大数据不只是Hadoop
2020年以前这种论调在业界颇有市场,尤其是在国内市场(尽管美国市场在2019年就有人提出了“Hadoop已死”的论调)。因为Hadoop真的很火爆,所以尽管许多人并不清楚Hadoop到底是什么、可以用来做什么,只是看到了行业的头部企业使用了基于Hadoop的系统,于是中小型企业也一窝蜂地要使用基于Hadoop的系统处理大数据相关业务。在这种跟风的市场氛围下,如果某种大数据技术和Hadoop不沾边儿,那么客户、投资人甚至企业自己的团队成员都有可能会对该技术的前景持迟疑态度。原创 2025-03-18 17:12:26 · 895 阅读 · 0 评论 -
揭秘大数据 | 9、大数据从何而来?
在科技发展史上,恐怕没有任何一种新生事物深入人心的速度堪比大数据。如果把2012年作为数据量爆发性增长的第一年,那么短短数年,大数据就红遍街头巷尾——从工业界到商业界、学术界,所有的行业都经受了大数据的洗礼。从技术的迭代到理念的更新,大数据无处不在。时至今日,在日常的生产生活中,每时每刻都有数以亿计的设备在产生巨大体量的数据……原创 2025-03-17 17:34:52 · 768 阅读 · 0 评论 -
揭秘云计算 | 8、云服务与产品的演进
了解云计算服务、产品与解决方案的演进历程可以从服务提供方或需求方入手。对于某些用户而言,提供远程桌面、瘦客户端(取代现有PC主机、笔记本电脑)是日常办公云化的第一步;而对于其他用户,特别是一些对于流程较注重的公司而言,他们可能会从购买SaaS化的办公自动化系统、CRM或ERP系统入手。研发型机构或IT公司接入云的方式则更有可能是直接购买虚拟化的IaaS资源,如云主机、云数据库服务等。原创 2025-03-12 17:37:26 · 1065 阅读 · 0 评论 -
揭秘云计算 | 3、云的多重形态
云计算在快速发展的过程中逐渐形成了不同的服务模式,以及不同云的对比。原创 2024-11-07 15:04:16 · 940 阅读 · 0 评论 -
揭秘云计算 | 7、云服务与产品的演进历程
了解云计算服务、产品与解决方案的演进历程可以从服务提供方或需求方入手。原创 2025-01-20 15:15:29 · 508 阅读 · 0 评论 -
揭秘云计算 | 6、云计算最佳实践五原则
云计算是一门典型的实践主导的工程学,它是一直随着业务需求、应用场景、市场热点,甚至新老技术交替而不断变化的。形成良好的机制来重新评估现有云战略、战术,并及时调整和更正留存的问题是所有云计算的拥抱者应当具有的正确姿态。原创 2025-01-10 14:49:26 · 995 阅读 · 0 评论 -
揭秘云计算 | 5、关于云计算效率的讨论
本篇内容中,老夫介绍了一些业界提高IT设备效率的做法希望能起到抛砖引玉的效果。原创 2024-11-20 16:48:19 · 1791 阅读 · 0 评论 -
揭秘云计算 | 4、云的形态并非一成不变
前面我们介绍了不同形态的云的特点,并列出了一些规则来帮助人们决策到底要选择哪种云以适应各自的业务需求。在拥抱云的过程中,从人的思维方式到团队的合作方式,再到与客户的接洽方式,甚至是整个社会的运作方式都在逐步发生巨大的变化。这一小节我们就来谈一谈变化中的云。原创 2024-11-13 15:14:45 · 849 阅读 · 0 评论 -
揭秘云计算 | 2、业务需求推动IT发展
换一个角度来看,今天的数据中心中依然充斥着大量的第二平台甚至第一平台的那些“传统”应用,它们虽然在增长速度上(是的,这些应用依然在增长,而不是有些人说的所有的应用都是第三平台云应用,此类的说法过于绝对且不符合事实)没有新型的云应用那么惊人,但在绝对数量上依然占优势,也就是说在相当长一段可预见的时期内,政企IT部门的投资依然会在如何继续减少经营支出与如何增加面向新模式的投资之间做出分配。在相当长的一段时间内,业务部门对IT高度依赖,牺牲了敏捷性、灵活性来获得IT的支撑,IT拥有极大的控制权并提供安全保障。原创 2024-11-05 15:21:50 · 1588 阅读 · 1 评论 -
揭秘云计算 | 1、云从哪里来?
我们要知道云是什么,云从哪里来、会到哪里去、可以做什么,为什么云计算在今天以至可见的未来会大行其道。之其所以然,可以更好地帮助我们预判云会朝哪个方向发展,会在何处融入、改变人们的工作与生活。原创 2024-11-01 15:12:07 · 1275 阅读 · 0 评论 -
资源管理、高可用与自动化(下)
云计算本质上是提供服务的多个模块的API互相连接的程序和平台的组合。在软件定义的云计算中心中,计算、网络、存储的实现都演化为面向服务(一切即服务)的模型,各个模块的集中控制器向外提供API,使模块具备了可编程能力,而且控制器使得各个模块具备了中央控制的功能,使得自动化的工作流能够集中部署,集中控制。而且,随着各个模块的控制器的控制接口向开放性、灵活性和标准化方向发展,自动化工作流也会朝标准化方向发展,使工作流能够实现跨平台,跨厂商使用。以软件定义的存储解决方案Ceph与ViPR/CoprHD为例,两原创 2021-08-04 16:55:55 · 181 阅读 · 0 评论 -
资源管理、高可用与自动化(中)
比资源管理更贴近最终用户的是一系列的服务,可以是普通的邮件服务、文件服务、数据库服务,也可能是针对大数据分析的Hadoop集群等服务。对于配置这些服务来说,软件定义数据中心的独特优势是自动化。例如VMware的vCAC(vCloud Automation Center)就可以按照管理员预先设定的步骤,自动部署几乎任何传统服务,从数据库到文件服务器。绝大多数部署的细节都是预先定义的,管理员只需要调整几个参数就能完成配置。即使有个别特殊的服务(例如用户自己开发的服务),没有事先定义的部署流程,也可以通过图形化的原创 2021-08-02 14:12:41 · 208 阅读 · 0 评论 -
资源管理、高可用与自动化(上)
当服务器、存储和网络已经被抽象成虚拟机(含容器)、虚拟存储对象(块设备、文件系统、对象存储)、虚拟网络,这些虚拟化资源从数量上和表现形式上都与硬件有了明显的区别。这个时候,数据中心至多可以被称为“软件抽象”的,但还不是软件定义的。因为各种资源现在还无法建立起有效的联系。要统一管理虚拟化之后的资源,不仅仅是将状态信息汇总、显示在同一个界面,更进一步的,需要能够用一套统一的接口,集中管理这些资源。例如VMware的vCenter和vCloud Director系列产品或Amazon AWS的Management原创 2021-07-28 17:35:39 · 255 阅读 · 0 评论 -
软件定义的网络(下)
我们在这里对这两种SDN实现方案分别做个简单描述。(1)以网络为中心的SDN以网络为中心的SDN的技术核心是OpenFlow协议,OpenFlow技术最早由斯坦福大学于2008年提出,它是一种通信协议,用来提供对网络设备诸如交换机和路由器的数据转发平面(Data Forwarding Plane)的访问控制。OpenFlow旨在基于现有的TCP/IP技术条件,以创新的网络互联理念解决当前架构在面对新的网络业务和服务时所产生的各种瓶颈。OpenFlow的核心思想很简单,就是将原本完全由交换机/原创 2021-07-21 10:32:39 · 389 阅读 · 0 评论 -
软件定义的网络(中)
SDN的出现打破了传统网络设备制造商独立而封闭的控制面结构体系,将改变网络设备形态和网络运营商的工作模式,对网络的应用和发展将产生直接影响。从技术层面和应用层面来看,SDN的特点主要体现在以下几个方面:· 数据平面与控制平面的分离,在控制面对网络集中控制。通过控制面功能的集中以及数据面和控制面之间的接口规范,实现对不同厂商的设备进行统一、灵活、高效的管理和维护。数据面和控制面的分离,并且支持集中控制,就是把原来IP网络设备上的路由控制平面,集中到一个控制器上,网络设备根据控制器下发的控制表项进行原创 2021-07-19 11:18:08 · 209 阅读 · 0 评论 -
软件定义的网络(上)
数据中心作为IT资源的集中地,是数据计算、网络传输、存储的中心,为企业和用户的业务需求提供IT支持。网络作为提供数据交换的模块,是数据中心中最为核心的基础设施之一,并直接关系到数据中心的性能、规模、可扩展性和管理性。随着云计算、物联网、大数据等众多新技术和应用的空前发展以及智能终端的爆炸式增长,以交换机为代表的传统网络设备为核心的数据中心网络已经很难适应企业和用户对业务和网络快速部署、灵活管理和控制,以及开放协作的需求,网络必须能够像用户应用程序一样可以被定制和编程,也就是软件定义的网络,也叫SDN原创 2021-07-09 14:10:56 · 761 阅读 · 2 评论 -
软件定义的存储
软件定义存储源于VMware公司于2012年提出的软件定义的数据中心(SDDC)。存储作为软件定义的数据中心不可或缺的一部分,其以虚拟化为基础,但又不仅限于虚拟化。存储虚拟化一般只能在专门的硬件设备上应用,很多设备都是经过专门的定做才能够进行存储虚拟化。而软件定义存储则没有设备限制,可以简单地理解为存储的管理程序(类似于软件定义计算中虚拟机管理程序VMM)。软件定义存储是对现有操作系统和管理软件的一个结合,能够完整实现我们对存储系统的部署、管理、监控、调整等多种要求,可以给我们的存储系统带来敏捷、高可用原创 2021-07-07 15:14:06 · 1620 阅读 · 0 评论 -
软件定义的计算
虚拟化是软件定义的计算最主要的解决途径。虽然类似的技术早在IBM S/360系列的机器中已经出现过,但是真正“平民化”,走入大规模数据中心还是在VMware推出基于x86架构处理器的全虚拟化(Full-Virtualization)产品之后。随后,还有Microsoft Hyper-V、Citrix XEN、Redhat KVM(Kernel-based Virtual Machine)、Sun VirtualBox(现在改叫Oracle VM VirtualBox)、QEMU(Quick EMUl原创 2021-07-05 10:48:11 · 1214 阅读 · 2 评论 -
浅谈软件定义的必要性有哪些?
节点设备太多、设备利用率太低、 应用设备间迁移太困难、存储需求增长得太快……应用的发展,推动了IT基础架构的发展,特别是承载着云计算与大数据应用的规模化数据中心的发展,需要面临的挑战实在太多了。于是虚拟化技术重新回到大众视野中。图:软件定义的计算演进在计算机发展的早期(20世纪60年代),虚拟化技术其实就已经出现了,当时是为了能够充分利用昂贵的大型主机的计算资源。数十年后,虚拟化技术再一次变成人们重点关注的对象,依然跟提高资源的利用效率有密不可分的关系。而且这次虚拟化技术不仅在计算节点上被广泛应原创 2021-06-30 14:44:12 · 366 阅读 · 2 评论 -
大数据四大阵营之流数据处理阵营
一|大数据的四大阵营是什么?二|浅谈流数据处理阵营数据流管理来自于这样一个概念:数据的价值随着时间的流逝而降低,所以需要在事件发生后尽快进行处理,最好是在事件发生时就进行处理(即实时处理),对事件进行一个接一个处理,而不是缓存起来进行批处理(如Hadoop)。在数据流管理中,需要处理的输入数据并不存储在可随机访问的磁盘或逻辑缓存中,它们以数据流的方式源源不断地到达。数据流通常具有如下特点:· 实时性(Real-time):数据流中的数据实时到达,需要实时处理。· 无边界(U..原创 2021-06-25 19:09:07 · 724 阅读 · 1 评论 -
大数据四大阵营之OLAP阵营
OLAP阵营主要有两大主流方向:一个是基于MapReduce而构建的Hadoop生态圈一个是MPP(大规模并行)数据库阵营不过MPP数据库通常兼具OLAP与OLTP的能力,所以老孙仍旧把MPP数据库与OLAP类型大数据系统并列在OLAP阵营。Hadoop的整体架构其实非常简单,用公式表达就是:Hadoop=HDFS+MapReduce其中,HDFS 负责分布式存储MapReduce 负责分布式计算HDFS分布式文件系统的设计核心理念(设计目标)有三条:(1)可以扩展到数以千计的.原创 2021-06-08 10:45:51 · 519 阅读 · 0 评论 -
大数据四大阵营之OLTP阵营(下)
[书接上篇]NewSQL数据库下面我们聊一聊颠覆了CAP“理论”的NewSQL类系统(兼具可扩展性、数据可用性与一致性)。确切地说NewSQL可以兼顾OLTP+OLAP,但在一般分类上,我们还是主要突出了它的交易、事务处理对ACID的支持上,因此归为OLTP阵营。最早的NewSQL系统是H-Store15,由美国东海岸的四所大学(Brown、CMU、MIT和Yale)在美国国家科学基金会、加拿大工程与研究委员会及Intel大数据科技中心的资助下联合开发,于2007年面世。H-Store的意义在于它真的原创 2021-06-02 15:00:55 · 319 阅读 · 0 评论 -
大数据四大阵营之OLTP阵营(中)
书接上篇:大数据四大阵营之OLTP阵营(上)](https://blog.youkuaiyun.com/Ultipa/article/details/117294528)(4)图数据库型NoSQL – 从Neo4J到Ultipa Graph图数据库这一概念对于行外人士而言具有比较大的误导性,很多人乍一听会以为是图像处理数据库,而不会想到这里“图”是图论的“图”,也许当时命名这一类的数据库时用Topo Graph(可翻译为拓扑数据库)会更准确一些。图:哥尼斯堡大桥问题。莱昂哈德·欧拉于1736年发表的《哥尼.原创 2021-05-31 12:27:06 · 382 阅读 · 1 评论 -
大数据四大阵营之OLTP阵营(上)
**一 | 大数据的四大阵营是什么?**· OLTP(在线事务、交易处理):RDBMS、NoSQL、NewSQL· OLAP(在线分析处理):MapReduce、Hadoop、Spark等·MPP(大规模并行处理):Greenplum、Teradata Aster等· 流数据管理:CEP/Esper、Storm、Spark、Stream、Flume等二 | OLTP阵营OLTP阵营可以分为:·传统的关系型数据库·NoSQL·NewSQL三类不同的解决方案。在本篇文章中,我们.原创 2021-05-26 15:57:39 · 695 阅读 · 2 评论 -
浅谈大数据如何应用?
大数据所面临的五大问题中最后一个是大数据应用,也是大数据问题的具象和最终展现形式。如果用更高度的概括来表述大数据的生命周期,可以归纳为:大数据来源+大数据技术+大数据应用。三者缺一不可、彼此相承,见下图:**一|大数据应用特点**大数据应用通常被划分为第三平台应用,以此来区别于第二平台的应用。大数据应用有如下四大特点:· 弹性(Elasticity)· 敏捷性(Agility)· 数据为中心(Data-centric)·应用服务化(As-a-Service)(1)应用弹性大数据.原创 2021-05-20 10:29:53 · 1256 阅读 · 0 评论 -
浅谈大数据如何管理与分析
构建面向海量信息的大数据管理平台,其本质上是要实现一套可软件定义的数据中心来通过对下层的基础架构进行有效的管理(存储、网络、计算以及相关资源的调度、分配、虚拟化、容器化等)以满足上层的业务与应用需求,并通过软件的灵活性与敏捷性来实现高ROI(Return-on-Investment,投入产出比)。此前,老孙在《谈云》系列和《解密大数据》的前几讲中,均提到过大数据与云计算之间相辅相成的关系,这一点也充分体现在它们两者的技术栈对应的关系上,下图所示。图:云计算+大数据体系架构技术栈大数据存储对应于云计.原创 2021-05-17 15:18:11 · 1678 阅读 · 6 评论 -
浅谈大数据如何存储?
【前言】大数据的五大问题:当传统的方法已无法应对大数据的规模、分布性、多样性以及时效性所带来的挑战时,我们需要新的技术体系架构以及分析方法来从大数据中获得新的价值。McKinsey Global Institute在一份报告中认为大数据会在如下几个方面创造巨大的经济价值:·通过让信息更透明以及更频繁被使用,解锁大数据价值·通过交易信息的数字化存储可以采集更多更准确、详细的数据用于决策支撑·通过大数据来细分用户群体,进行精细化产品、服务定位 ·深度的、复杂的数据分析(及预测)来提升决策准确率·通过原创 2021-05-12 18:38:44 · 3588 阅读 · 1 评论 -
大数据不只是Hadoop!
不少人认为,大数据就是Hadoop,其实这里存在着认知错误,但这种论调似乎在业界颇有市场,因为Hadoop真的很火爆,尽管许多人并不清楚Hadoop到底是什么,可以用来做什么,但是如果某种大数据技术不和Hadoop沾边儿,客户、投资人甚至自己的团队可能都会对该技术的前景持迟疑的态度。首先我们需要了解大数据处理的发展历程中形成了哪些主要的流派与生态系统。从20世纪90年代到今天,面向海量数据的处理与分析经历了如下的3个主要阶段:关系型数据库一统天下的时代(1990—现今)Hadoop与NoSQL并.原创 2021-05-10 11:21:31 · 424 阅读 · 1 评论 -
大数据从何而来?
【前言】在人类科技发展史上,恐怕没有任何一种新生事物深入人心的速度堪比大数据。如果把2012年作为大数据开始爆发性增长的元年,短短数年间,无论是作为一门新技术,一个新的语言符号,还是一种市场推广的新工具,大数据红遍街头巷尾,从工业界到商业界到学术界到政界,所有的行业都经受了大数据的洗礼—从技术的迭代到理念的更新,大数据无处不在。一 | 大数据的催化剂是什么催生了大数据呢?·社交媒体·移动互联网·物联网(1)社交媒体社交媒体(SNS,Social Networking Service或原创 2021-04-28 10:58:25 · 2692 阅读 · 0 评论