- 博客(21)
- 收藏
- 关注
原创 大厂算法刷题(一)
给定一个有序数组arr,代表坐落在X轴上的点。给定一个正数K,代表绳子的长度。返回绳子最多压中几个点?即使绳子边缘处盖住点也算盖住。假设有个长度为10的绳子,每次尾部都会落到节点上。那么长度能盖到的节点就是对应最多的点数量。查找有序数组,可同时使用二分查找。
2024-06-11 23:10:19
365
1
原创 Flink的容错机制和一致性详解
Flink的容错机制和一致性详解一. 容错机制Flink 实现容错主要靠强大的CheckPoint机制和State机制。Checkpoint 负责定时制作分布式快照、对程序中的状态进行备份;State 用来存储计算过程中的中间状态。1 检查点1.1 一致性检查点其实就是所有任务的状态,在某个时间点进行的一份快照比如在所有任务都敲好处理完一个相同的输入数据的时候.flink会定期的保存状态的一致检查点.如果发生故障,这回使用最近的检查点来一致恢复应用程序的状态.步骤:1.重启2.从检查点
2020-12-10 16:54:16
481
原创 hadoop.compression.lzo.LzoCodec not found问题发现及解决
问题描述:spark.SparkContext: Created broadcast 0 from textFile at WordCount.scala:37Exception in thread "main" java.lang.RuntimeException: Error in configuring object.........//往下N多行Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression
2020-09-23 10:06:46
5409
2
原创 Spark概述和安装运行
Spark概述和安装运行1、什么是SparkSpark是一种基于内存的快速、通用、扩展的大数据分析计算引擎Spark只负责计算,没有存储功能。=================================hadoop在2013年10月发布2.x版本增加yarnSpark在2013年6月成为Apache项目==>>Hadoop的Yarn框架比Spark框架诞生的晚,所以Spark自己也设计了一套资源调度框架。===========================和Hadoop
2020-09-23 09:59:28
203
原创 Scala常用函数
Scala常用函数1、基本属性和常用操作val list = List(23, 54, 68, 91, 15)(1)获取集合长度println(list.length)(2)获取集合大小println(list.size)(3)循环遍历for( elem <- list ) print(elem + "\t")list.foreach( elem => print(elem + "\t") )(4)迭代器val iter = list.iteratorwhile(
2020-09-21 20:33:44
311
原创 Scala集合及其相关操作
Scala集合及其相关操作1,简介1)Scala的集合有三大类:序列Seq、集Set、映射Map,所有的集合都扩展自Iterable特质。2)对于几乎所有的集合类,Scala都同时提供了可变和不可变的版本,分别位于以下两个包 不可变集合:scala.collection.immutable 可变集合: scala.collection.mutable3)Scala不可变集合,就是指该集合对象不可修改,每次修改就会返回一个新对象,而不会对原对象进行修改。类似于java中的String对象
2020-09-18 21:18:22
181
原创 用户行为数据日志采集通道
日志采集通道日志采集Flume配置1)Flume配置分析方案:taildir source --> kafa chennal --> kafka --> kafka chennal --> HDFS sinkhadoop102 Flume采集本地日志(作为kafka的生产者)hadoop103 Flume采集本地日志(作为kafka的生产者)hadoop104 Flume采集kafka日志(作为kafka的消费者)2)Flume的具体配置如下(左):(1)在/o
2020-09-09 19:54:17
449
原创 数仓项目配置安装
数仓项目1、模板机的安装最小化安装CentOS-7–使用NAT网络/boot 1G 标准分区 ext4swap 2G 标准分区 swap/ 47G 标准分区 ext4root 123456lu 123456开始安装2、模板机的处理使用Xshell连接ip addr//查看ip地址安装必要环境。[root@hadoop100 ~]# yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp
2020-09-08 19:42:12
279
原创 HBase概念,安装及shell命令
HBASE第1章 HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase物理存储结构1.2.3 数据模型1**)Name Space**命名空间,类似于关系型数据库的d
2020-09-07 20:08:58
300
原创 kafka安装及架构详解
kafkaKafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。使用消息队列的好处1)解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。3)缓冲有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致的情况。4)灵活性 &
2020-09-03 16:33:50
217
转载 Flume笔记-常用配置
一下内容均来自Flume官网的使用文档:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-sinkssourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、 taildir 、sequence generator、syslog、http、leg
2020-08-26 08:40:27
491
1
原创 Flume笔记二:案例
案例一: 复制和多路复用[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eMUIIsHM-1598360531912)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1598353568861.png)]vim a1.conf//第一道flume#各个组件命名a1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2#Sourcea
2020-08-25 21:03:25
481
原创 Flume笔记
第1章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume基础架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mCtbxVPb-1598271811311)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1598269996505.png)]1.2
2020-08-24 20:24:32
137
原创 hive企业调优
hive企业级调优1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。
2020-08-21 18:15:57
115
原创 HiveServer2服务运行异常及解决方案之一
问题描述:HiveServer2启动失败。并且启动连接jdbc时拒绝连接。bin/beeline -ujdbc:hive2://hadoop102:10000 -n atguigu—>群起脚本失败,卡定在这里检查服务运行状态后:[atguigu@hadoop102 ~]$ hiveservices.sh statusMetastore服务运行正常HiveServer2服务运行异常问题的排查:hadoop运行正常:[atguigu@hadoop102 ~]$ jpsall =
2020-08-17 23:15:01
9592
1
原创 MapReduce源码分析(二):MapTask和ReduceTask源码分析
MapRedeuce源码分析shuffle机制将Map写出的数据通过collect收集到环形缓冲区环形缓冲区默认100M,右边写的KV信息,左边写元数据写至80%,或完成任务后将溢写文件。溢写之前将缓冲区中的数据分区,并将缓冲区内的数据使用快排排序。‘如果使用combiner会将同一个MapTask生成的所有文件的根据分区使用归并排序进行合并。之后将文件压缩,写入磁盘reduceTask根据所需的分区主动copy磁盘数据,写入内存,内存不足的话写入磁盘对每个map来的数据归并排序并根据Ke
2020-08-14 20:00:24
235
原创 MapReduce源码分析(一):总过程及Job提交过程
MapRedeuce源码分析MapReduce总过程(一)待处理的文本(二)submit()提交前获取待处理信息,然后根据参数配置形成任务规划(三)提交信息(四)计算出MapTesk的数量(五)MapTesk默认使用TextInputFormat读取文本信息。默认使用RecorderReader读取K和V(六)使用Mapper根据需要读取K,V。Context.write(K,V)写出到收集器outputCollector中(七)收集器将KV向环形缓冲区写入数据(八)环形缓冲区满后,对其中
2020-08-13 16:48:50
160
原创 (三)HDFS中DataNode工作机制及数据节点服役和退役
第6章 DataNode(开发重点)6.1 DataNode工作机制(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。(3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心
2020-08-11 09:52:29
449
原创 (二)HDFS,NameNode和SecondaryNameNode机制
第5章 NameNode和SecondaryNameNode5.1 NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就
2020-08-10 18:28:58
150
原创 (一)HDFS客户端开发和读写数据流程
第1章 HDFS概述略第2章 HDFS的Shell操作基本语法hadoop fs 具体命令 OR hdfs dfs 具体命令两个是完全相同的。常用命令实操1、启动Hadoop集群(方便后续的测试)[lu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh[lu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh2、-help:输出这个命令参数[lu@hadoop102 hadoop-3.1.3]$
2020-08-09 17:26:48
425
原创 hadoop完全分布式部署及相应脚本
一:模板机的配置1、必要的硬件和软件配置内存4G,硬盘50G,网段均为192.168.6.X保证Linux虚拟机可以联网1.虚拟网络编辑器种VMnet8中子网IP为192.168.6.X2.window系统中网络连接中VMnet8的IPv4为192.168.6.X3.vim /etc/sysconfig/network-scripts/ifcfg-ens33中添加静态IP为192.168.6.X安装必要环境[root@hadoop100 ~]# yum install -y epel-
2020-08-07 13:44:35
322
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人