
大数据组件
vince_liu123
这个作者很懒,什么都没留下…
展开
-
初步认识Kafka
1.什么是KafkaApache Kafka是一个 开源的分布式消息队列 (生产者消费者模式) Apache Kafka 目标:构建企业中统一的. 高通量的,低延时的消息平台 ; 大多的消息队列是基于JMS标准实现的Apache Kafka l类似于JMS的实现.2.Kafka的特点作为缓冲(流量消减),来异构,解耦系统3.基本架构Kafka Cluster:由多个服务器组成。每个服务器...原创 2019-07-30 16:03:50 · 109 阅读 · 0 评论 -
mapreduce的升级(hive)
数据仓库概念:主要是存储数据 面向分析的额既不会产生数据 也不会消耗数据 唯一的数据是存储数据,数据是从外部而来数据库:为了我们的增删改从查 主要是为了捕获数据一般使用在业务系统中大数据领域的数据仓库:hive只是数据仓库的一个工具而已数据仓库的特征面向主题: 数据仓库的分析是有一定主题的数据集成性:涉及到的数据都会获取到进行分析非易失性 :不可更新性 数据仓库当中的数据都是历史已经...原创 2019-07-31 14:21:31 · 203 阅读 · 0 评论 -
大数据的重要框架 spark
1 概述RDD 是一个可以容错且并行的数据结构(其实可以理解成分布式的集合,操作起来和操作本地集合一样简单),它可以让用户显式的将中间结果数据集保存在内存中,并且通过控制数据集的分区来达到数据存放处理最优化.同时 RDD也提供了丰富的 API (map、reduce、foreach、group。。。。)来操作数据集.后来 RDD被 AMPLab 在一个叫做 Spark 的框架中提供并开源. RD...原创 2019-08-04 13:12:01 · 233 阅读 · 0 评论 -
大数据重要组件 数据仓库工具 ( HIVE)
简介:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。特点:可扩展Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。延展性Hive支持用户自定义函数,用...原创 2019-08-15 20:11:03 · 1362 阅读 · 0 评论 -
Hive 优化
1 Fetch 抓取Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal...原创 2019-08-15 20:36:16 · 127 阅读 · 0 评论 -
流式计算框架 Storm
概述Storm是一个流式计算框架,数据源源不断的产生,源源不断的收集,源源不断的计算。(一条数据一条数据的处理)架构Nimbus:负责资源分配和任务调度。Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。Worker:运行具体处理组件逻辑的进程。Task:worker中每一个spout/bolt的线程称为一个task. 在storm0.8之...原创 2019-08-17 20:30:09 · 878 阅读 · 0 评论