
BigData
文章平均质量分 94
Hen_YA
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kafka
一、什么是Kafka?Kafka是个分布式流处理平台,也可以称之为消息队列。Kafka可以进行简单的数据处理。二、Kafka特点:Kafka采用的是生产者与消费者模式。消费者在消费完每一条数据以后,Kafka中的数据不会丢失。但是这种情况会导致磁盘溢出,因此推出了数据有效期这一机制。这一特点的好处:计算容错率高,假如数据处理失败,还可以重新从kafka中读取过来。允许高并发的情况...原创 2018-11-21 13:26:27 · 305 阅读 · 0 评论 -
HBase
什么是HBase?原创 2018-11-22 22:45:30 · 235 阅读 · 0 评论 -
Hive学习(二)知识点整理
Hive一、Hive简介?二、Hive的结构三、Hive的原理四、Hive的数据管理五、Hive的调优六、Hive环境搭建和部署一、Hive简介?hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必...原创 2018-11-13 20:00:53 · 1952 阅读 · 0 评论 -
Spark学习(五)Spark Shuffle及内存分配
文章目录一、什么是Spark Shuffle?二、HashShuffle运行原理三、Shuffle可能面临的问题?四、如何优化解决问题?五、SortShuffle运行原理一、什么是Spark Shuffle?1、Shuffle中文意思就是“洗牌”,在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。2、在Spark中,什么情况下会发生...原创 2018-11-08 22:49:33 · 4541 阅读 · 0 评论 -
Spark学习(三)Spark内核
一、Spark中的一些专业术语 任务:Application:用户写的应用程序,包括Driver Program和Executor Program。Job:一个action类算子触发执行的操作。stage:一组任务(task)就是一个stage。task:(thread)在集群中运行时最小的执行单元。 资源、集群:Master:资源管理的主节点。Worker:资源管理的从节点...原创 2018-11-03 22:32:08 · 691 阅读 · 0 评论