什么是大数据
大数据的概念由来已久。其实,早在1980年,阿尔文·托夫勒在《第三次浪潮》这本书中已经预言了信息时代的到来会带来数据的大爆发,
但是当时的技术还不成熟,所以等到几十年后大数据才登上历史舞台。因为技术需要持续的积累才能由量变到质变。大数据到底是什么?研究机构Gartner给出了定义,
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
什么是大数据平台以及一般大数据平台架构图
结合大数据在企业的实际应用场景,可以构建出如图1-1所示的大数据平台架构。
最上层为应用提供数据服务与可视化,解决企业实际问题。第2层是大数据处理核心,包含数据离线处理和实时处理、数据交互式分析以及机器学习与数据挖掘。
第3层是资源管理,为了支撑数据的处理,需要统一的资源管理与调度。第4层是数据存储,存储是大数据的根基,大数据处理框架都构建在存储的基础之上。
第5层是数据获取,无论是数据存储还是数据处理,前提都是快速、高效地获取数据。
除了数据服务与可视化外(与业务联系紧密,每个公司不同)
什么是数据仓库
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 这个定义的确官方,但是却指出了数据仓库的四个特点。 特点: 面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉 集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作 随时间变化:关键数据隐式或显式的基于时间变化 信息本身相对稳定:数据装入以后一般只进行查询操作,没有传统数据库的增删改操作 一般理解: 数据仓库就是整合多个数据源的历史数据进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。
数据仓库的用途
整合公司所有业务数据,建立统一的数据中心 产生业务报表,用于作出决策 为网站运营提供运营上的数据支持 可以作为各个业务的数据源,形成业务数据互相反馈的良性循环 分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果 开发数据产品,直接或间接地为公司盈利
什么是数据挖掘于分析
数据挖掘是从海量数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘中用到了大量机器学习中的数据分析技术和数据管理技术。机器学习是数据挖掘中的一种重要工具,数据挖掘不仅要研究、扩展、应用一些机器学习的方法,还要通过许多非机器学习技术解决数据存储、数据噪声等实 际问题。机器学习不仅可以用在数据挖掘上,还可以应用在增强学习与自动控制等领域。总体来讲,从海量数据获取有价值信息的过程中,数据挖掘是强调结果,机器学习是强调使用方法,两个领域有相当大的交集,但不能画等号。 在大数据开发的过程中,利用机器学习对海量数据进行数据分析挖掘,大数据开发人员通常会使用机器学习库即可,不需要自己开发算法。目前,使用较多、比较成熟的机器学习库是Spark框架中的Spark ML,大数据开发人员可以直接利用Spark ML进行数据挖掘。当然也可以使用Flink框架中的Flink ML,不过Flink ML还在发展过程中,有待成熟和完善
大数据相关框架一般都有哪些
hadoop(本专题内容) hlive hbase spark storm flink(本专题内容)