- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 2021-04-03
spark-streaming 环境搭建 参考:https://www.pianshen.com/article/1423964378/ 练习转换算子和行动算子
2021-04-03 02:09:38
218
原创 大数据-kafka
工作中用的最多的消息中间件是kafka,下面重新介绍下 1.kafka 特性 这个了解下,网上到处都是 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败) 高并发:支持数千个客户端同时读写 2. Kafka架构组件 每类数据创建一个topic,把向top
2021-04-03 01:07:42
507
原创 大数据-消息中间件
1.消息中间件模式分类 点对点: 使用queue作为通信载体 消息生产者生产消息发送到queue中,然后消息消费者从queue中取出并且消费消息。 消息被消费以后,queue中不再存储,所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。 发布/订阅:使用topic作为通信载体 消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和点对点方式不同,发布到topic的消息会被所有订阅者消费。 q..
2021-04-03 00:10:42
905
原创 大数据:MR原理解析(二)
MR解析详解,. 1. map阶段 1.1 对输入文件的每一行,解析成<key、value>。每一个键值对调用一次map函数 1.1.1. 输入文件进行InpuSplit,再把InpuSplit分给对应的mapper.InputSplit包含处理的文件信息 FileInputFormat类中 public List<InputSplit> getSplits(JobContext job) --取给的文件的最小切片和JOB文件的最小切片 long minSize =
2021-04-02 23:36:20
816
原创 大数据:MR手写WORDCOUNT(-)
往往从大数据开始,第一个就是手写MR MR是map-reduce,是hadoop的核心的组件之一,并发执行,主要来处理hdfs分布式文件系统 介绍自己手写的wordcount,然后再进行原理解释 1.下载hadoo安装到windows本地 地址https://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/hadoop-2.7.2.tar.gz 2. 解压之后进行设置环境变量 新建HADOOP_HOMED:\h...
2021-04-02 22:11:53
302
原创 大数据-序篇
工作多年,回首以前,个人做的技术面宽,而深度不够。而如今失业再次面试,屡屡碰壁,痛定思痛,从基础再次着手,开始巩固定学习. java很核心,但个人一般,javaweb 每一段都能自主开发,但不核心 scala,python 都可以玩,但不够精通 大数据中,hive,spark-streaming,spark-sql,kafka都一般般 那就大数据领域开始学吧,从mr开始,java/scala/python能满足需要,再学习再补充吧 ...
2021-04-02 18:28:51
132
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅