
大数据
说出你的愿望吧丷
公众号:说出你的愿望吧
展开
-
Elk环境篇 --- 本地快速搭建你的ElasticSearch及Kibana
前言ELK的基本介绍ELK是三个软件产品的首字母缩写,Elasticsearch,Logstash 和 Kibana。这三款软件都是开源软件,通常是配合使用,而且又先后归于 Elastic.co 公司名下,故被简称为 ELK 协议栈左边我们部署了多台服务器,然后我们通过logstash来采集数据,采集完成我们发送到ES集群中存起来,然后通过Kibana去展示到我们的浏览器中,就是这么一个简...原创 2020-04-06 10:29:23 · 1070 阅读 · 0 评论 -
插曲:大白话带你认识Kafka
前言应大部分的小伙伴的要求,在Yarn之前先来一个kafka的小插曲,轻松愉快。一、Kafka基础消息系统的作用应该大部份小伙伴都清楚,用机油装箱举个例子所以消息系统就是如上图我们所说的仓库,能在中间过程作为缓存,并且实现解耦合的作用。引入一个场景,我们知道中国移动,中国联通,中国电信的日志处理,是交给外包去做大数据分析的,假设现在它们的日志都交给了你做的系统去做用户画像分析。按...原创 2020-01-06 20:11:30 · 354 阅读 · 2 评论 -
带你入坑大数据(二) --- HDFS的读写流程和一些重要策略
前言前情回顾如果说上一篇是在阐述HDFS最基础的理论知识,这一篇就是HDFS的主要工作流程,和一些较为有用的策略补充一个问题,就是当我们 NameNode 挂掉,SecondaryNameNode作为新的NameNode上位时,它确实可以根据fsimage.ckpt把一部分元数据加载到内存,可是如果这时还有一部分操作日志在edits new中没有执行怎么办?这时候有一个解决方案就是利用一个...原创 2020-01-06 19:33:39 · 537 阅读 · 0 评论 -
带你入坑大数据(一) --- HDFS基础概念篇
前言从零开始的高并发系列我们已经把 zookeeper 给更新完了,顺带一提之前的zookeeper并没有结合大数据来进行说明。重新开个坑一方面是一直都想找个理由来总结一下大数据方面的东西,另一方面则是抓住时代的走向吧,毕竟也是为了自己,所以废话不多说我们就开始吧。阅读须知这类似于一份学习笔记,可是绝对有头有尾,会用最清晰明了的语言来描述知识点,希望大家也能有所收获重点:大数据的概念性问题...原创 2020-01-06 19:32:46 · 201 阅读 · 0 评论 -
Hadoop源码篇 --- 面试常问的Namenode元数据管理及双缓冲机制
前言这两个关于NameNode的问题其实非常地经典,不仅有很多细节可询,而且也是面试的一个高频问题,所以特意独立出来一篇。元数据管理会结合源码来讲,而双缓冲虽然暂时没去翻源码,但是我们可以借由一个简单的实现去向大家好好地说明。后面也会对这段源码进行一些修改操作来让它更为高效。那话不多说咱们就开始吧因为直接看源码大家可能接受不了,所以我们先来聊聊双缓冲机制。一、Namenode的双缓冲机制1...原创 2020-01-06 19:02:37 · 1137 阅读 · 1 评论 -
Hadoop源码篇 --- DataNode的初始化与注册流程
前言因为大家读源码的方式都各有千秋,这里的阅读过程并不代表最佳实践,只是一个自身阅读过程的再现而已。所以如果有一些遗漏的重点,也可以在留言处替我指出。先前也有很多小伙伴提出了一些我的错误或者改进的地方,这里表示衷心的感谢。那按照先前的套路,我们提出两个任务,整篇就为了完成验证下面的任务而进行:1、DataNode初始化:我们平时搭建集群时,通过jps命令时可以看到DataNode的服务的,所...原创 2020-01-06 19:00:35 · 810 阅读 · 0 评论 -
Hadoop源码篇 --- NameNode的启动流程解析
前言提醒一下,这里面需要有RPC的基础,如果对RPC没有了解的朋友,可以先跳转到以往写的两篇RPC文章中。理论方面:从零开始的高并发(七)— RPC的介绍,协议及框架(可略过)代码方面:从零开始的高并发(八)— RPC框架的简单实现当然也不需要太过深入,知道点皮毛即可。因为Hadoop中有一个Hadoop RPC需要有点基础知识。暂时先记得下面的满足RPC的条件(非完整):1.不同进程...原创 2020-01-06 18:55:40 · 1051 阅读 · 1 评论