- 博客(19)
- 收藏
- 关注
原创 git管理远程仓库
使用远程仓库的目的作用:备份,实现代码共享集中化管理将本地仓库同步到git远程仓库中主要用到了git push 命令,具体步骤如下所示:首先需要将远程仓库git clone到本地,git clone 仓库地址 对本地仓库进行操作,例如创建文件、修改文件、删除文件等(使用git操作本地仓库的命令) 调用git push命令提交到远程仓库...
2019-12-26 22:08:07
217
原创 大数据环境搭建
大数据环境搭建1.集群无密登录例如A机器的a用户想要无密登录到B机器的b用户,主要分成以下三个步骤:在每台机器当前用户的主目录下执行命令 ssh-keygen -t rsa 此命令可生成一对密钥:id_rsa.pub(公钥)、id_rsa(私钥),这两个文件都在主目录下的.ssh文件夹里(如果没有配置密钥是不会有这个文件夹的),在每个主机的.ssh目录下执行命令 touch autho...
2019-10-29 23:15:26
402
原创 Kafka学习笔记(一)
Kafka学习笔记(一)2019.07.111. Kafka消息队列内部实现原理消费者可通过两种模式获取数据,一种是“pull”,主动拉取数据;一种是"push",将数据推送给所有订阅者。第一种方式的缺点是需要实时监控数据有没有更新。为什么需要消息队列?解耦; 冗余; 扩展(集群的扩展性); 灵活性&峰值处理能力; 可恢复性; 顺序保证; 缓冲...
2019-07-14 22:11:02
212
原创 Hadoop学习日记(十六)——Kafka
Hadoop学习日记(十六)2019.07.08、07.09主题:Kafka学习过程主要参考段海涛大数据p61注:因项目需要,故提前学习视频中Kafka相关内容,Hadoop HA机制以及Hive、HBase、Storm后续再补充。1. Kafka要点1. Kafka是一个分布式的消息缓存系统;2. Kafka集群中的服务器都叫做broker;3. Kafka有两类...
2019-07-09 17:21:53
255
原创 Hadoop学习日记(十五)——Hadoop HA机制
Hadoop学习日记(十五)2019.07.08主题:Hadoop HA机制学习过程主要参考段海涛大数据p42普通的Hadoop架构元数据的可靠性有保证,但是服务的可用性不高,一旦NN宕机,则服务不可用。1. Hadoop中HA机制的架构2. brain split现象如何避免brain split现象?通过ssh kill -9 namenode,强制杀掉...
2019-07-08 21:01:11
149
原创 Hadoop学习日记(十四)——ZooKeeper
Hadoop学习日记(十四)2019.07.08主题:ZooKeeper学习过程主要参考段海涛大数据p401.ZooKeeper架构1. ZooKeeper集群一般是奇数个节点;2. ZooKeeper多节点间会备份同样的数据;2.应用场景1. 统一命名服务阿里的DUBBO框架就利用了ZooKeeper2. 配置管理3. 集群管理4. 共享锁...
2019-07-08 19:37:02
178
原创 Hadoop学习日记(十三)——Shuffle机制
Hadoop学习日记(十三)2019.07.03主题:Shuffle机制学习过程主要参考段海涛大数据p351. Map的并发任务数Map任务与数据存储的数据中间有一层“切片(split)”的概念。标题对于小文件处理,可使得一个split对应多个实际的数据块;当文件较大被分成多个128M的块时,一个split可对应一个块。2.shuffle机制1.每个...
2019-07-03 23:02:48
182
原创 Hadoop学习日记(十二)——MapReduce自定义分组的实现
Hadoop学习日记(十二)2019.07.03主题:MapReduce自定义分组的实现学习过程主要参考段海涛大数据p341.自定义分组机制MapReduce进行分组是根据一个继承Partitioner类的具体实现类来定义的,一般是默认有一个HashPartitioner类。如果要自定义自己的分组机制,自然就需要自定义一个自己的继承Partitioner类的具体实现类(例如My...
2019-07-03 16:02:53
307
1
原创 Hadoop学习日记(十一)——Yarn的job提交流程
Hadoop学习日记(十一)2019.07.01主题:Yarn的job提交流程学习过程主要参考段海涛大数据p29这段视频是对提交流程的源码进行了跟踪(主要是关于RunJar进程),整个流程如下图所示。...
2019-07-01 22:21:18
220
原创 Hadoop学习日记(十)——MR程序的几种提交运行模式
Hadoop学习日记(十)2019.07.01主题:MR程序的几种提交运行模式学习过程主要参考段海涛大数据p27除了提交到集群以及在本地运行(数据在本地或者集群)这两种模式之外,着重讨论了从eclipse也就是本地启动,但是运行在集群上的提交方式。视频里关于这段有损,无法观看,后续解决再补充。...
2019-07-01 22:13:09
193
原创 Hadoop学习日记(九)——Yarn框架
Hadoop学习日记(九)2019.07.01主题:Yarn框架学习过程主要参考段海涛大数据p26yarn框架工作流程1. RunJar进程向ResourceManager申请执行一个job;2. ResourceManager返回job相关资源的提交路径staging-dir和为本job产生的jobId;3. 向HDFS提交资源;4. 汇报提交结果;5. 将本jo...
2019-07-01 21:12:46
197
原创 Hadoop学习日记(八)——mr程序的本地运行模式
Hadoop学习日记(八)2019.03.08主题:MapReduce程序的本地运行模式学习过程主要参考段海涛Hadoop之p25相比日记(七),本地(Windows系统)运行只需将代码中的输入输出文件路径修改为Windows本地路径即可。(需要注意的是也可以程序在本地运行,但是数据从hdfs中取)在这部分的实践中,遇到了一些问题,下面重点讲这些内容。问题一、cannot ...
2019-07-01 19:43:23
577
原创 Hadoop学习日记(七)——wordcount编写和提交集群运行
Hadoop学习日记(七)2019.03.08主题:wordcount编写和提交集群运行这部分内容的学习主要参考段海涛Hadoop之p24这部分的学习主要是编写了WCMapper、WCReducer、WCRunner三个类,以及最终打包成jar包提交集群运行。一、关键点汇总1. 在wordcount实例里,WCReducer中Reduce()方法数据输入的value其实是一...
2019-03-08 11:29:07
277
原创 Hadoop学习日记(六)——hdfs源码跟踪之打开输入流
Hadoop学习日记(六)2019.03.03主题:hdfs源码跟踪之打开输入流这部分内容的学习主要参考段海涛Hadoop基础p21.对于如下的代码(功能是从hdfs集群上下载某个文件):Configuration conf=new Configuration();conf.set("fs.defaultFS","hdfs://master:9000/");FileSy...
2019-03-03 22:58:36
143
原创 Hadoop学习日记(五)
Hadoop学习日记(五)2019.03.03主题:getFileSystem内部流程这部分内容的学习主要参考段海涛Hadoop基础p19、段海涛Hadoop基础p20.具体设计流程设计多个类,而且方法的调用栈也较深。待后续补充完善。...
2019-03-03 22:21:16
211
原创 Hadoop学习日记(四)
Hadoop学习日记(四)2019.03.02主题:Hadoop中的RPC框架注:参考段海涛大数据p16Hadoop的RPC框架如下图所示:
2019-03-02 22:10:59
224
原创 Hadoop学习日记(三)
Hadoop学习日记(三)2018.03.01主题:FileSystem类相关以及hdfs下载数据源码分析FileSystem是一个抽象类,具体实现时可以实现为不同的子类,例如DistributedFileSystem、FTPFileSystem、RawLocalFileSystem类等等。如图这样做的好处是将具体实现交给下层。在笔记二里的代码FileSystem ...
2019-03-01 22:31:35
248
原创 Hadoop学习日记(二)
Hadoop学习日记(二)2019.03.01主题:HDFS的JAVA客户端编写首先上代码(截取上传文件的代码为例): @Test public void upload() throws IOException { Configuration conf=new Configuration(); //conf.set("fs.defaultFS", "hdfs://...
2019-03-01 22:19:51
312
原创 Hadoop学习日记(一)
Hadoop学习日记(一)2019.02.27主题:NameNode元数据管理机制注:主要参考视频教程段海涛大数据(p11)1.客户端上传文件时,NN首先往edits log文件中记录元数据操作日志;2.客户端开始上传文件,完成后返回成功信息给NN,NN就在内存中写入这次上传操作的新产生的元数据信息;3.每当edits log写满时,需要将这一段时间的新的元数据刷到fsim...
2019-02-28 11:55:45
397
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人