自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 git管理远程仓库

使用远程仓库的目的作用:备份,实现代码共享集中化管理将本地仓库同步到git远程仓库中主要用到了git push 命令,具体步骤如下所示:首先需要将远程仓库git clone到本地,git clone 仓库地址 对本地仓库进行操作,例如创建文件、修改文件、删除文件等(使用git操作本地仓库的命令) 调用git push命令提交到远程仓库...

2019-12-26 22:08:07 217

原创 大数据环境搭建

大数据环境搭建1.集群无密登录例如A机器的a用户想要无密登录到B机器的b用户,主要分成以下三个步骤:在每台机器当前用户的主目录下执行命令 ssh-keygen -t rsa 此命令可生成一对密钥:id_rsa.pub(公钥)、id_rsa(私钥),这两个文件都在主目录下的.ssh文件夹里(如果没有配置密钥是不会有这个文件夹的),在每个主机的.ssh目录下执行命令 touch autho...

2019-10-29 23:15:26 402

原创 Kafka学习笔记(一)

Kafka学习笔记(一)2019.07.111. Kafka消息队列内部实现原理消费者可通过两种模式获取数据,一种是“pull”,主动拉取数据;一种是"push",将数据推送给所有订阅者。第一种方式的缺点是需要实时监控数据有没有更新。为什么需要消息队列?解耦; 冗余; 扩展(集群的扩展性); 灵活性&峰值处理能力; 可恢复性; 顺序保证; 缓冲...

2019-07-14 22:11:02 212

原创 Hadoop学习日记(十六)——Kafka

Hadoop学习日记(十六)2019.07.08、07.09主题:Kafka学习过程主要参考段海涛大数据p61注:因项目需要,故提前学习视频中Kafka相关内容,Hadoop HA机制以及Hive、HBase、Storm后续再补充。1. Kafka要点1. Kafka是一个分布式的消息缓存系统;2. Kafka集群中的服务器都叫做broker;3. Kafka有两类...

2019-07-09 17:21:53 255

原创 Hadoop学习日记(十五)——Hadoop HA机制

Hadoop学习日记(十五)2019.07.08主题:Hadoop HA机制学习过程主要参考段海涛大数据p42普通的Hadoop架构元数据的可靠性有保证,但是服务的可用性不高,一旦NN宕机,则服务不可用。1. Hadoop中HA机制的架构2. brain split现象如何避免brain split现象?通过ssh kill -9 namenode,强制杀掉...

2019-07-08 21:01:11 149

原创 Hadoop学习日记(十四)——ZooKeeper

Hadoop学习日记(十四)2019.07.08主题:ZooKeeper学习过程主要参考段海涛大数据p401.ZooKeeper架构1. ZooKeeper集群一般是奇数个节点;2. ZooKeeper多节点间会备份同样的数据;2.应用场景1. 统一命名服务阿里的DUBBO框架就利用了ZooKeeper2. 配置管理3. 集群管理4. 共享锁...

2019-07-08 19:37:02 178

原创 Hadoop学习日记(十三)——Shuffle机制

Hadoop学习日记(十三)2019.07.03主题:Shuffle机制学习过程主要参考段海涛大数据p351. Map的并发任务数Map任务与数据存储的数据中间有一层“切片(split)”的概念。标题对于小文件处理,可使得一个split对应多个实际的数据块;当文件较大被分成多个128M的块时,一个split可对应一个块。2.shuffle机制1.每个...

2019-07-03 23:02:48 182

原创 Hadoop学习日记(十二)——MapReduce自定义分组的实现

Hadoop学习日记(十二)2019.07.03主题:MapReduce自定义分组的实现学习过程主要参考段海涛大数据p341.自定义分组机制MapReduce进行分组是根据一个继承Partitioner类的具体实现类来定义的,一般是默认有一个HashPartitioner类。如果要自定义自己的分组机制,自然就需要自定义一个自己的继承Partitioner类的具体实现类(例如My...

2019-07-03 16:02:53 307 1

原创 Hadoop学习日记(十一)——Yarn的job提交流程

Hadoop学习日记(十一)2019.07.01主题:Yarn的job提交流程学习过程主要参考段海涛大数据p29这段视频是对提交流程的源码进行了跟踪(主要是关于RunJar进程),整个流程如下图所示。...

2019-07-01 22:21:18 220

原创 Hadoop学习日记(十)——MR程序的几种提交运行模式

Hadoop学习日记(十)2019.07.01主题:MR程序的几种提交运行模式学习过程主要参考段海涛大数据p27除了提交到集群以及在本地运行(数据在本地或者集群)这两种模式之外,着重讨论了从eclipse也就是本地启动,但是运行在集群上的提交方式。视频里关于这段有损,无法观看,后续解决再补充。...

2019-07-01 22:13:09 193

原创 Hadoop学习日记(九)——Yarn框架

Hadoop学习日记(九)2019.07.01主题:Yarn框架学习过程主要参考段海涛大数据p26yarn框架工作流程1. RunJar进程向ResourceManager申请执行一个job;2. ResourceManager返回job相关资源的提交路径staging-dir和为本job产生的jobId;3. 向HDFS提交资源;4. 汇报提交结果;5. 将本jo...

2019-07-01 21:12:46 197

原创 Hadoop学习日记(八)——mr程序的本地运行模式

Hadoop学习日记(八)2019.03.08主题:MapReduce程序的本地运行模式学习过程主要参考段海涛Hadoop之p25相比日记(七),本地(Windows系统)运行只需将代码中的输入输出文件路径修改为Windows本地路径即可。(需要注意的是也可以程序在本地运行,但是数据从hdfs中取)在这部分的实践中,遇到了一些问题,下面重点讲这些内容。问题一、cannot ...

2019-07-01 19:43:23 577

原创 Hadoop学习日记(七)——wordcount编写和提交集群运行

Hadoop学习日记(七)2019.03.08主题:wordcount编写和提交集群运行这部分内容的学习主要参考段海涛Hadoop之p24这部分的学习主要是编写了WCMapper、WCReducer、WCRunner三个类,以及最终打包成jar包提交集群运行。一、关键点汇总1. 在wordcount实例里,WCReducer中Reduce()方法数据输入的value其实是一...

2019-03-08 11:29:07 277

原创 Hadoop学习日记(六)——hdfs源码跟踪之打开输入流

Hadoop学习日记(六)2019.03.03主题:hdfs源码跟踪之打开输入流这部分内容的学习主要参考段海涛Hadoop基础p21.对于如下的代码(功能是从hdfs集群上下载某个文件):Configuration conf=new Configuration();conf.set("fs.defaultFS","hdfs://master:9000/");FileSy...

2019-03-03 22:58:36 143

原创 Hadoop学习日记(五)

Hadoop学习日记(五)2019.03.03主题:getFileSystem内部流程这部分内容的学习主要参考段海涛Hadoop基础p19、段海涛Hadoop基础p20.具体设计流程设计多个类,而且方法的调用栈也较深。待后续补充完善。...

2019-03-03 22:21:16 211

原创 Hadoop学习日记(四)

Hadoop学习日记(四)2019.03.02主题:Hadoop中的RPC框架注:参考段海涛大数据p16Hadoop的RPC框架如下图所示:

2019-03-02 22:10:59 224

原创 Hadoop学习日记(三)

Hadoop学习日记(三)2018.03.01主题:FileSystem类相关以及hdfs下载数据源码分析FileSystem是一个抽象类,具体实现时可以实现为不同的子类,例如DistributedFileSystem、FTPFileSystem、RawLocalFileSystem类等等。如图这样做的好处是将具体实现交给下层。在笔记二里的代码FileSystem ...

2019-03-01 22:31:35 248

原创 Hadoop学习日记(二)

Hadoop学习日记(二)2019.03.01主题:HDFS的JAVA客户端编写首先上代码(截取上传文件的代码为例): @Test public void upload() throws IOException { Configuration conf=new Configuration(); //conf.set("fs.defaultFS", "hdfs://...

2019-03-01 22:19:51 312

原创 Hadoop学习日记(一)

Hadoop学习日记(一)2019.02.27主题:NameNode元数据管理机制注:主要参考视频教程段海涛大数据(p11)1.客户端上传文件时,NN首先往edits log文件中记录元数据操作日志;2.客户端开始上传文件,完成后返回成功信息给NN,NN就在内存中写入这次上传操作的新产生的元数据信息;3.每当edits log写满时,需要将这一段时间的新的元数据刷到fsim...

2019-02-28 11:55:45 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除