
大数据
文章平均质量分 57
CaseZoecxl
我所见所学,更多的是前人的智慧,常怀敬畏和感恩之心。
展开
-
SparkRDD
目录一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三、RDD编程API 3.1 Transformation 3.2 Action 3.3 Spark WordCount代码编写 3.4 WordCount执行过程图 四、RDD的宽依赖和窄依赖 4.1 RDD依赖关系的本质内幕 4.2原创 2021-08-09 09:46:11 · 236 阅读 · 1 评论 -
Flume组件的常见类型及拓扑结构
学习Flume就是学习Flume组件的如何使用,整理FLume常见组件类型如下:下面是FLume常见的拓扑结构:复制:负载均衡:聚合:多路:多路需要配合拦截器使用。原创 2021-06-22 08:29:06 · 761 阅读 · 55 评论 -
Paxos算法
Paxos是一个基于消息传递的解决分布式数据一致性的算法。Paxos算法中共有三种角色: Proposer:向集群提出议案。 Acceptor:对提议进行投票,只有在达到多数派时提议才会被接收。 Learner:提议接受者,对集群的一致性没有什么影响,单纯的记录人员。 另外,client也是一个重要组成部分,是请求Proposer发起提议的。Proposal:proposer提出的议案或者建议,编号为n和内容为...原创 2021-06-17 13:56:12 · 991 阅读 · 2 评论 -
Hadoop集群快速搭建
一、hadoop开发环境搭建shell连接,以root用户登录。1.准备一台虚拟机① 最小化安装2.hadoop101(模板机)① 修改hostname vi /etc/hostname② 固定IP vi /etc/sysconfig/network-scripts/ifcfg-ens33③ 修改hosts 在windows上,cmd,管理员模式进入,cd /windows/system32/d原创 2021-06-16 21:35:33 · 1231 阅读 · 2 评论 -
Kafka之零拷贝技术
零拷贝技术(zero-copy)是指将数据直接才从磁盘文件复制到网卡设备中,不需要经过应用程序,减少了内核态和用户态的切换。jav原创 2021-06-15 08:51:29 · 2602 阅读 · 2 评论 -
HBase布隆过滤器简介
上面是一个布隆过滤器的简略工作图。布隆过滤器的特点:--能判断一定没有,但不能判断有。每一个HFile都有一个布隆过滤器。原理:会维护一个数组,一开始数组元素都是0。 当put数据时,HBase会拿上RowKey经过几个hash算法进行计算,计算出几个位置,把相应的位置改成1,已经是1了就继续保持1。 当get数据时,HBase会拿上RowKey经过几个hash算法进行计算,计算出相应位置,查看这些位置上数值是否都是1,如果满足,则该HFile可能存在要读取的数据...原创 2021-06-16 09:11:07 · 1108 阅读 · 0 评论 -
CAP原则图解
CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。CAP 原则指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。...原创 2021-06-16 15:02:31 · 2004 阅读 · 39 评论