大数据分享
大数据介绍
- 为什么要大数据?
随着与日俱增的数据量,对于传统的关系型数据库这样的集中存储简直就是噩梦,不能否认的是在没有分布式的存储出现之前,数据的存储成为了计算机行业的新瓶颈。 - 大数据创造的价值是又有哪些?
提升生活质量?获取到更为精准的目标数据?提供更为智能便捷的生产工具?
大数据挖掘商业价值的方法主要分为四种:
客户群体细分,然后为每个群体量定制特别的服务。
模拟现实环境,发掘新的需求同时提高投资的回报率。
加强部门联系,提高整条管理链条和产业链条的效率。
降低服务成本,发现隐藏线索进行产品和服务的创新。 - 大数据介绍
大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) —–《百度百科》
主流技术介绍
Hadoop
- 《The Google File System 》 2003年
- 《MapReduce: Simplified Data Processing on Large Clusters》 2004年
- 《Bigtable: A Distributed Storage System for Structured Data》 2006年
Hadoop生态圈
- 计算框架
- MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
- Spark:区别于Hadoop MapReduce读写HDFS,Spark将Job输出的存到内存中,这样大大加快了数据的处理速度。
- Pig:Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。
- Flink
- Tez
- 机器学习
- Mabout
- Spark MLlib
- 流式处理
- Apache Storm
- Spark Streaming
- Apache Samza
- SQL on Hadoop
- HIVE:基于Hadoop的数据仓库工具,可以将结构化的数据映射称为一张数据库表格,并提供SQL查询功能。
- Apache Trefodion:构建在Hadoop/HBase基础之上的关系型数据库,利用底层的Hadoop的横向扩展能力实现大数据提供ACID事务保证。
- Impala:Cloudera主导卡法的能查询存储在Hadoop的HDFS和HBase中的PB级大数据的新型查询系统。
- Kylin:一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持。
- No SQL和New SQL
- 列式存储:Habse
- key-Value型:Redis
- 文档型:a
- 图:a
- 工作流调度器
- Oozie:Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。我们会使用hPDL(一种XML流程定义语言)来描述这个图。
- Azkabam:LinkedIn的工作流任务调度器。用一种特定的工作顺序运行一组工作和流程,并提供一个易于维护和监控工作流的web界面
- 数据集成
将传统的关系型数据库“升级”到Hadoop;
- Sqoop:实现Hadoop与RDBMS(传统关系型数据库)之间的数据导入。
- kafka:分布式的高吞吐量的消息订阅系统。
- Flume:高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
- Splunk:日志管理工具(日志聚合、搜索、提取意义、对结果进行分组,联合,拆分和格式化、可视化、电子邮件提醒)。
- 系统集成
- Ambar:创建、部署、管理、监视Hadoop的集群的工具。
- 安全
- Sentry:用来授权管理,它是一个策略引擎,被数据处理工具用来验证访问权限。
- Ranger