- 博客(141)
- 问答 (8)
- 收藏
- 关注
原创 17 插值查找
插值查找算法类似于二分查找,不同的是插值查找每次从自适应 mid 处开始查找。将折半查找中的求 mid 索引的公式 , low 表示左边索引 left, high 表示右边索引 right.key 就是前面我们讲的 findVal.2 插入排序法的代码实现。1 插入排序法思想。1 插入排序法思想。
2023-02-17 22:24:24
86
原创 3 kafka文件存储机制
文章目录1 kafka文件存储机制2 索引文件和log文件的查找机制1 kafka文件存储机制kafka 采用分片和索引机制, 将每个partition分为多个segment.每个segment对应两个文件 – “index” 和 “log”.分别表示为segment索引文件和数据文件(引入索引文件的目的就是便于利用二分查找快
2021-07-22 09:38:06
124
原创 二 kafka的概念
文章目录1 什么是kafka2 组件概念2.1 broker2.2 topic2.3 partition2.4 producer2.5 consumer2.6 Consumer Group2.7 offset1 什么是kafkakafka 是一个分布式的,分布订阅模式的消息队列.2 组件概念2.1 brokerkafka的节点,一个kafka节点就是一个broker2.2 topictopic就是数据主题,相当于给数据分类,不同的业务数据可以放到不同topic里面.2.3 partition
2021-07-21 11:59:11
201
原创 一 kafka安装部署
文章目录1 server.properties2 kafka 群起脚本1 server.properties#broker的全局唯一编号,不能重复broker.id=0#删除topic功能使能delete.topic.enable=true#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的现成数量num.io.threads=8#发送套接字的缓冲区大小socket.send.buffer.bytes=102400#接收套接字的缓冲区大小socke
2021-06-19 18:26:08
110
2
原创 3 flume 自定义组件
文章目录1 自定义 Interceptor1.1 案例需求1.2 需求分析1.3 实现步骤2 自定义 Source2.1 介绍2.2 需求2.3 编码3 自定义 Sink3.1 介绍3.2 需求1 自定义 Interceptor1.1 案例需求使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。1.2 需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Mul
2021-05-26 08:32:37
97
原创 MapReduce Job 提交流程源码解析
文章目录1 大体流程1 大体流程waitForCompletion()submit();// 1 建立连接connect();// 1)创建提交 Job 的代理new Cluster(getConfiguration());// (1)判断是本地运行环境还是 yarn 集群运行环境initialize(jobTrackAddr, conf); // 2 提交 jobsubmitter.submitJobInternal(Job.this, cluster)// 1)创建给集群提交数
2021-03-18 00:17:10
155
原创 hdfs HA 出现Cannot find any valid remote NN to service request
文章目录所有的nameNode 都是standby状态,查看出现Cannot find any valid remote NN to service request解决办法:停掉hadoop的服务在所有的nameNode上执行hdfs zkfc -formatZK
2021-03-13 11:33:50
2329
原创 四.2 hadoop常用端口号
文章目录端口名称hadoop2.xhadoop3.xNamenode内部通信端口8020/90008020/900/9820NamenodeHTTP UI500709870Mapreduce查看执行任务端口80888088历史服务器通信端口1988819888
2021-03-13 09:39:18
134
原创 java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument
当使用idea 运行hadoop client操作hdfs是出现以下错误java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357) at org.apache.hadoop.conf.C
2021-02-03 23:32:15
3341
2
原创 clickhouse jdbc dem
public class ClickhouseConn { public static void main(String[] args) throws SQLException { Connection connection = DriverManager.getConnection("jdbc:clickhouse://hadoop105:8123","default","000000"); PreparedStatement pstmt = connection
2021-01-31 20:10:26
123
原创 四.1 hadoop 3.1.3 非HA 集群安装部署
文章目录1 集群部署2 修改hadoop-env.sh,yarn-env.sh,mapred-env.sh文件3 修改core-site.xml文件4 hdfs-site.xml5 yarn-site.xml6 mapred-site.xml7 workers文件8 启动停止9访问页面地址9.1 yarn:9.2 hdfs10 测试1 集群部署2 修改hadoop-env.sh,yarn-env.sh,mapred-env.sh文件在上面三个文件中添加jdk 路径export JAVA_HOME=
2021-01-24 16:40:51
135
原创 3 zookeeper 命令
文章目录1 常见命令2 Stat状态说明3 监听器原理4 选举机制5 写数据流程6 读数据流程1 常见命令2 Stat状态说明3 监听器原理(1) 监听原理详解:1)首先要有一个main()线程2)在main线程中创建Zookeeper客户端,这时就会创建两个线程,一个负责网络连接通信(connet),一个负责监听(listener)。3)通过connect线程将注册的监听事件发送给Zookeeper。4)在Zookeeper的注册监听器列表中将注册的监听事件添加到列表中。5)Zoo
2021-01-24 11:07:25
102
原创 2 zookeeper 的客户端和配置参数解读
文章目录1 客户端启动2 zoo.cfg配置参数解读1 客户端启动zkCli.sh默认是连接localhost的2181端口zkCli.sh –server hostname:port可以使用zkCli.sh –server hostname:port 来连接不同的服务端使用quit或者ctrl+c可以退出客户端2 zoo.cfg配置参数解读1)tickTime:通信心跳数,Zookeeper服务器心跳时间,单位毫秒Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心
2021-01-24 10:38:58
398
原创 1 zookeeper 3.5.7安装部署
文章目录1 下载zookeeper2 安装2.1 解压zookeeper安装包到/opt/module/目录下2.2 在/opt/module/zookeeper-3.5.7/这个目录下创建zkData2.3 重命名/opt/module/zookeeper-3.5.7/conf这个目录下的zoo_sample.cfg为zoo.cfg2.4 配置zoo.cfg文件3 编写zookeeper 启动脚本1 下载zookeeper下载地址:https://zookeeper.apache.org/2 安装
2021-01-24 10:17:33
397
原创 scala 导包说明
scala中的三个默认导入分别是import java.lang._import scala._import scala.Predef._
2021-01-23 11:51:21
293
原创 scala 闭包
object TestBreak { var f = 3 val mu = (i:Int) => i * f def main(args: Array[String]): Unit = { var f = 4 println( "muliplier(1) value = " + mu(1)) }}输出:muliplier(1) value = 3main方法的f=4不会影响mu的闭包.
2021-01-23 11:46:43
74
原创 flink 命令
./flink cancel 61f309083cb554d9a90f207b8c19d617 -s hdfs:///user/flink/cluster_yarn/savepointsbin/flink cancel -m 127.0.0.1:8081 -s /tmp/savepoint
2021-01-19 00:11:15
212
原创 flink配置
./bin/flink list 列出计划和正在运行的job./bin/flink list -s 列出预定job./bin/flink list -r 列出正在运行的job./bin/flink list -m yarn-cluster -yid -r 列出在YARN 中运行的job./bin/flink cancel 通过jobID取消job./bin/flink stop 通过jobID停止jobenv.log.dir: /var/log/flinkhigh
2021-01-18 23:55:32
385
原创 flink CDH
https://blog.youkuaiyun.com/qq_31454379/article/details/110440037?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242https://blog.youkuaiyun.com/m0_46919785/article/details/109204668?utm_medium=distribute.pc_relevant.none-task
2021-01-13 22:51:14
97
原创 二 clickhoue 数据分区规则
文章目录1 分区规则1.1 不定分区 书友数据使用all分区1.2 使用整型 直接按照整型的字符形式输出.1.3 使用日期 使用YYYYMMDD的进行格式化1.4 使用其它类型通过128位的hash算法作为分区的ID2 使用多分区字段3 分区id的解析4 合并过程1 分区规则1.1 不定分区 书友数据使用all分区1.2 使用整型 直接按照整型的字符形式输出.1.3 使用日期 使用YYYYMMDD的进行格式化1.4 使用其它类型通过128位的hash算法作为分区的ID2 使用多分区字段分区I
2020-12-13 12:28:48
1226
1
原创 flink 监控url
以下是可用请求的列表,并带有示例JSON响应。所有请求都是示例表格http://hostname:8082/jobs,我们在下面仅列出了URL的路径部分。尖括号中的值是变量,例如,http://hostname:port/jobs//exceptions必须要求为http://hostname:port/jobs/7684be6004e4e955c2a558a9bc463f65/exceptions。/config/jobs/overview/jobs//jobs//vertices/jobs/
2020-11-15 19:45:18
405
原创 shell 分割字符串
#!/bin/bash#arr=( "a" "b" "**" "c")#for i in ${arr[@]}#do# echo "$i"#doneline="a b ** c"var1=`echo "$line"|awk -F ' ' '{print $3}'`echo "$var1"
2020-10-11 18:55:43
864
原创 一 clickhouse DDL查询
文章目录1 数据库1.1 建库1.2 删除数据库, 查看数据库2 建表2.1 传统方法2.2 从已存在的表中只复制表结构2.3 从已存在的表中复制表结构和数据3 默认表达式4 临时表5 分区表1 数据库1.1 建库create database if not exists db_test [ENGINE = engine];[ENGINE = engine] 代表的是数据库引擎,有5种:(1) ordinary(默认):可以使用任意类型的表引擎(2) dictionary:字典引擎,会为所有
2020-09-18 21:47:18
2761
原创 静态表join动态表
package org.example.windowfuncimport java.sql.{Connection, DriverManager, PreparedStatement, ResultSet}import org.apache.flink.api.common.functions.{FlatMapFunction, RichFlatMapFunction}import org.apache.flink.configuration.Configurationimport org.ap
2020-08-30 20:56:19
229
原创 十四 Flink table API
文章目录1 需要的依赖pom文件1.1 流程2 创建环境2.1 基于流处理执行环境,调 create 方法直接创建2.2 配置老版本的流式查询(Flink-Streaming-Query)2.3 基于老版本的批处理环境(Flink-Batch-Query)2.4 基于 blink 版本的流处理环境(Blink-Streaming-Query)2.5 基于 blink 版本的批处理环境(Blink-Batch-Query)2.6 案例3 在 Catalog 中注册表3.1 连接到文件系统(Csv 格式)3.2
2020-08-30 19:38:52
713
空空如也
hive 创建JsonSerDe 类型表每次使用datagrip运行sql时出现错误
2022-05-19
hive on spark 打开文件过多错误
2022-05-19
clickhouse出现 Connection refused 的异常
2021-03-14
clickhouse 如何实现字段自增
2020-12-13
shell 定义数组中有特殊的符号
2020-10-11
flink kekby 分区问题
2020-09-09
Python BeautifulSoup获取属性值怎么?
2019-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人