大数据分享

大数据分享

图片标题

大数据介绍

  1. 为什么要大数据?
    随着与日俱增的数据量,对于传统的关系型数据库这样的集中存储简直就是噩梦,不能否认的是在没有分布式的存储出现之前,数据的存储成为了计算机行业的新瓶颈。
  2. 大数据创造的价值是又有哪些?
    提升生活质量?获取到更为精准的目标数据?提供更为智能便捷的生产工具?
    大数据挖掘商业价值的方法主要分为四种
    客户群体细分,然后为每个群体量定制特别的服务。
    模拟现实环境,发掘新的需求同时提高投资的回报率
    加强部门联系,提高整条管理链条和产业链条的效率。
    降低服务成本,发现隐藏线索进行产品和服务的创新。
  3. 大数据介绍
    大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) —–《百度百科》

主流技术介绍

Hadoop

  1. 《The Google File System 》 2003年
  2. 《MapReduce: Simplified Data Processing on Large Clusters》 2004年
  3. 《Bigtable: A Distributed Storage System for Structured Data》 2006年

Hadoop生态圈

图片标题

  1. 计算框架
    • MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
    • Spark:区别于Hadoop MapReduce读写HDFS,Spark将Job输出的存到内存中,这样大大加快了数据的处理速度。
    • Pig:Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。
    • Flink
    • Tez
  2. 机器学习
    • Mabout
    • Spark MLlib
  3. 流式处理
    • Apache Storm
    • Spark Streaming
    • Apache Samza
  4. SQL on Hadoop
    • HIVE:基于Hadoop的数据仓库工具,可以将结构化的数据映射称为一张数据库表格,并提供SQL查询功能。
    • Apache Trefodion:构建在Hadoop/HBase基础之上的关系型数据库,利用底层的Hadoop的横向扩展能力实现大数据提供ACID事务保证。
    • Impala:Cloudera主导卡法的能查询存储在Hadoop的HDFS和HBase中的PB级大数据的新型查询系统。
    • Kylin:一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持。
  5. No SQL和New SQL
    • 列式存储:Habse
    • key-Value型:Redis
    • 文档型:a
    • 图:a
  6. 工作流调度器
    • Oozie:Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。我们会使用hPDL(一种XML流程定义语言)来描述这个图。
    • Azkabam:LinkedIn的工作流任务调度器。用一种特定的工作顺序运行一组工作和流程,并提供一个易于维护和监控工作流的web界面
  7. 数据集成
    将传统的关系型数据库“升级”到Hadoop;
    • Sqoop:实现Hadoop与RDBMS(传统关系型数据库)之间的数据导入。
    • kafka:分布式的高吞吐量的消息订阅系统。
    • Flume:高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
    • Splunk:日志管理工具(日志聚合、搜索、提取意义、对结果进行分组,联合,拆分和格式化、可视化、电子邮件提醒)。
  8. 系统集成
    • Ambar:创建、部署、管理、监视Hadoop的集群的工具。
  9. 安全
    • Sentry:用来授权管理,它是一个策略引擎,被数据处理工具用来验证访问权限。
    • Ranger

Google与大数据


结束语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值