WorkAsBryant-优快云博客

原创 git管理远程仓库

使用远程仓库的目的作用：备份，实现代码共享集中化管理将本地仓库同步到git远程仓库中主要用到了git push 命令，具体步骤如下所示：首先需要将远程仓库git clone到本地，git clone 仓库地址对本地仓库进行操作，例如创建文件、修改文件、删除文件等（使用git操作本地仓库的命令）调用git push命令提交到远程仓库...

2019-12-26 22:08:07 231

原创大数据环境搭建

大数据环境搭建1.集群无密登录例如A机器的a用户想要无密登录到B机器的b用户，主要分成以下三个步骤：在每台机器当前用户的主目录下执行命令 ssh-keygen -t rsa 此命令可生成一对密钥：id_rsa.pub（公钥）、id_rsa（私钥），这两个文件都在主目录下的.ssh文件夹里（如果没有配置密钥是不会有这个文件夹的），在每个主机的.ssh目录下执行命令 touch autho...

2019-10-29 23:15:26 425

原创 Kafka学习笔记（一）

Kafka学习笔记（一）2019.07.111. Kafka消息队列内部实现原理消费者可通过两种模式获取数据，一种是“pull”，主动拉取数据；一种是"push"，将数据推送给所有订阅者。第一种方式的缺点是需要实时监控数据有没有更新。为什么需要消息队列？解耦；冗余；扩展（集群的扩展性）；灵活性&峰值处理能力；可恢复性；顺序保证；缓冲...

2019-07-14 22:11:02 230

原创 Hadoop学习日记（十六）——Kafka

Hadoop学习日记（十六）2019.07.08、07.09主题：Kafka学习过程主要参考段海涛大数据p61注：因项目需要，故提前学习视频中Kafka相关内容，Hadoop HA机制以及Hive、HBase、Storm后续再补充。1. Kafka要点1. Kafka是一个分布式的消息缓存系统；2. Kafka集群中的服务器都叫做broker;3. Kafka有两类...

2019-07-09 17:21:53 268

原创 Hadoop学习日记（十五）——Hadoop HA机制

Hadoop学习日记（十五）2019.07.08主题：Hadoop HA机制学习过程主要参考段海涛大数据p42普通的Hadoop架构元数据的可靠性有保证，但是服务的可用性不高，一旦NN宕机，则服务不可用。1. Hadoop中HA机制的架构2. brain split现象如何避免brain split现象？通过ssh kill -9 namenode，强制杀掉...

2019-07-08 21:01:11 162

原创 Hadoop学习日记（十四）——ZooKeeper

Hadoop学习日记（十四）2019.07.08主题：ZooKeeper学习过程主要参考段海涛大数据p401.ZooKeeper架构1. ZooKeeper集群一般是奇数个节点；2. ZooKeeper多节点间会备份同样的数据；2.应用场景1. 统一命名服务阿里的DUBBO框架就利用了ZooKeeper2. 配置管理3. 集群管理4. 共享锁...

2019-07-08 19:37:02 191

原创 Hadoop学习日记（十三）——Shuffle机制

Hadoop学习日记（十三）2019.07.03主题：Shuffle机制学习过程主要参考段海涛大数据p351. Map的并发任务数Map任务与数据存储的数据中间有一层“切片(split)”的概念。标题对于小文件处理，可使得一个split对应多个实际的数据块；当文件较大被分成多个128M的块时，一个split可对应一个块。2.shuffle机制1.每个...

2019-07-03 23:02:48 198

原创 Hadoop学习日记（十二）——MapReduce自定义分组的实现

Hadoop学习日记（十二）2019.07.03主题：MapReduce自定义分组的实现学习过程主要参考段海涛大数据p341.自定义分组机制MapReduce进行分组是根据一个继承Partitioner类的具体实现类来定义的，一般是默认有一个HashPartitioner类。如果要自定义自己的分组机制，自然就需要自定义一个自己的继承Partitioner类的具体实现类（例如My...

2019-07-03 16:02:53 336 1

原创 Hadoop学习日记（十一）——Yarn的job提交流程

Hadoop学习日记（十一）2019.07.01主题：Yarn的job提交流程学习过程主要参考段海涛大数据p29这段视频是对提交流程的源码进行了跟踪（主要是关于RunJar进程），整个流程如下图所示。...

2019-07-01 22:21:18 236

原创 Hadoop学习日记（十）——MR程序的几种提交运行模式

Hadoop学习日记（十）2019.07.01主题：MR程序的几种提交运行模式学习过程主要参考段海涛大数据p27除了提交到集群以及在本地运行(数据在本地或者集群)这两种模式之外，着重讨论了从eclipse也就是本地启动，但是运行在集群上的提交方式。视频里关于这段有损，无法观看，后续解决再补充。...

2019-07-01 22:13:09 206

原创 Hadoop学习日记（九）——Yarn框架

Hadoop学习日记（九）2019.07.01主题：Yarn框架学习过程主要参考段海涛大数据p26yarn框架工作流程1. RunJar进程向ResourceManager申请执行一个job；2. ResourceManager返回job相关资源的提交路径staging-dir和为本job产生的jobId；3. 向HDFS提交资源；4. 汇报提交结果；5. 将本jo...

2019-07-01 21:12:46 214

原创 Hadoop学习日记（八）——mr程序的本地运行模式

Hadoop学习日记（八）2019.03.08主题：MapReduce程序的本地运行模式学习过程主要参考段海涛Hadoop之p25相比日记（七），本地（Windows系统）运行只需将代码中的输入输出文件路径修改为Windows本地路径即可。（需要注意的是也可以程序在本地运行，但是数据从hdfs中取）在这部分的实践中，遇到了一些问题，下面重点讲这些内容。问题一、cannot ...

2019-07-01 19:43:23 603

原创 Hadoop学习日记（七）——wordcount编写和提交集群运行

Hadoop学习日记（七）2019.03.08主题：wordcount编写和提交集群运行这部分内容的学习主要参考段海涛Hadoop之p24这部分的学习主要是编写了WCMapper、WCReducer、WCRunner三个类，以及最终打包成jar包提交集群运行。一、关键点汇总1. 在wordcount实例里，WCReducer中Reduce()方法数据输入的value其实是一...

2019-03-08 11:29:07 294

原创 Hadoop学习日记（六）——hdfs源码跟踪之打开输入流

Hadoop学习日记（六）2019.03.03主题：hdfs源码跟踪之打开输入流这部分内容的学习主要参考段海涛Hadoop基础p21.对于如下的代码（功能是从hdfs集群上下载某个文件）：Configuration conf=new Configuration();conf.set("fs.defaultFS","hdfs://master:9000/");FileSy...

2019-03-03 22:58:36 157

原创 Hadoop学习日记（五）

Hadoop学习日记（五）2019.03.03主题：getFileSystem内部流程这部分内容的学习主要参考段海涛Hadoop基础p19、段海涛Hadoop基础p20.具体设计流程设计多个类，而且方法的调用栈也较深。待后续补充完善。...

2019-03-03 22:21:16 225

原创 Hadoop学习日记（四）

Hadoop学习日记（四）2019.03.02主题：Hadoop中的RPC框架注：参考段海涛大数据p16Hadoop的RPC框架如下图所示：

2019-03-02 22:10:59 238

原创 Hadoop学习日记（三）

Hadoop学习日记（三）2018.03.01主题：FileSystem类相关以及hdfs下载数据源码分析FileSystem是一个抽象类，具体实现时可以实现为不同的子类，例如DistributedFileSystem、FTPFileSystem、RawLocalFileSystem类等等。如图这样做的好处是将具体实现交给下层。在笔记二里的代码FileSystem ...

2019-03-01 22:31:35 264

原创 Hadoop学习日记（二）

Hadoop学习日记（二）2019.03.01主题：HDFS的JAVA客户端编写首先上代码（截取上传文件的代码为例）： @Test public void upload() throws IOException { Configuration conf=new Configuration(); //conf.set("fs.defaultFS", "hdfs://...

2019-03-01 22:19:51 325

原创 Hadoop学习日记（一）

Hadoop学习日记（一）2019.02.27主题:NameNode元数据管理机制注：主要参考视频教程段海涛大数据（p11）1.客户端上传文件时，NN首先往edits log文件中记录元数据操作日志；2.客户端开始上传文件，完成后返回成功信息给NN，NN就在内存中写入这次上传操作的新产生的元数据信息；3.每当edits log写满时，需要将这一段时间的新的元数据刷到fsim...

2019-02-28 11:55:45 415

WorkAsBryant的博客