- 博客(121)
- 收藏
- 关注
原创 shell常用命令大全[bigdata版]
循环遍历数组遍历文件中的所有行if增强双括号日期每月的最后一天往前推一个小时crontab定时调度hadoop检查文件toc循环遍历数组NUM=10for i in $(seq 1 $NUM)do echo "$i"done遍历文件中的所有行while read linedo echo $linedone &...
2020-08-23 11:39:00
701
原创 kafka channel的parseAsFlumeEvent解析event
kafka channel的parseAsFlumeEvent解析eventKafka Channel的parseAsFlumeEvent的默认值为true,即会为对source来的数据进行解析,解析完会对数据前加前缀,前缀为topic名,因此这种情况,下游会需要做额外的截取工作,所以,当不需要前缀名时,将该属性设置为false.实际中使用kafkachannel, 使用...
2020-07-21 10:34:00
1443
原创 hdfs的写流程以及namenode,datanode挂掉后处理
HDFS写流程client -> namenode: 请求上传第一个block -> 收到可上传的节点(距离感知, 机架感知)-> 节点之间建立通信管道 -> 以Packet为单位传输数据(Packet中的单位chunk, 默认512B, 并校验)-> 传输完成后再次向namenode请求, 上传下一个block 通信管...
2020-07-13 10:22:00
3191
原创 maven仓库清理未完整下载jar的脚本
maven的pom文件中的依赖jar包可能因为网络问题, 无法完整下载, 导致依赖无法加载, 需要先对其进行清理. 手动清理: 删除maven仓库中的相应文件夹, 或者使用一下脚本, 批量删除.@echo offremset REPOSITORY_PATH=E:\develop\repositoryremfor /f "delims=" %%i in ('dir ...
2020-06-30 08:24:00
443
原创 ResourceMananger启动报错:Protocol message end-group tag did not match expected tag
启动ResouceManager不成功, 查看日志文件:Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local hos...
2020-06-29 18:41:00
1549
原创 已知类名查找maven依赖
打开 https://search.maven.org/ 可以将该网址加入到chrome的搜索框:Chrome浏览器如何快速切换搜索引擎一. 已知全类名输入fc:org.apache.poi.xssf.usermodel.XSSFWorkbook (注:fc 代表 full class)二. 已知类名输入c:类名(注:c 代表 class...
2020-06-28 17:34:00
822
原创 scala实现kafkaProduce1.0读取文件发送到kafka
pox.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche...
2020-06-28 16:28:00
495
原创 flume1.5的几种conf配置
flume版本: 1.5.2source:netcat 查看flume监听端口是否打开: netstat -tunlp | grep 44444# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/config...
2020-06-28 14:51:00
178
原创 shell:ps awk杀死进程
ps -ef | awk '/进程名/ && !/awk/{print $2}'| xargs kill -9&& !/awk/ : 并且不匹配"awk"{print $2}: 打印按空格分割的第二个字符串xargs: kill不支持管道, 是使用xargs读取数据...
2020-06-28 10:51:00
468
原创 scala的maven项目中的pom文件
如果没有添加以下依赖, 那么maven则无法编译scala文件<dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</art...
2020-06-27 20:01:00
1011
原创 hive开窗函数进阶
概述开窗函数的理解参见: 理解hive中的开窗函数over()中除了可以使用partition by选择分组字段外, 还有以下函数order by 排序指定聚合行的范围, 配合order by使用current row: 当前行n PRECEDING: 往前 n 行数据n FOLLOWING: 往后 n 行数据UNBOUNDED PRE...
2020-06-25 20:59:00
704
1
原创 理解hive中的开窗函数
开窗函数简单介绍与聚合函数一样,开窗函数也是需要对行进行分组, 然后使用聚合算子. 可是它不像普通聚合函数那样每组只返回一个值,而是每一行返回一个窗口的聚合结果.举例说明数据如下hive (default)> select * from over_test;open_test.name open_test.orderdate open_test.costj...
2020-06-25 19:02:00
416
原创 kafka中的端到端一致性(exactly-one)
端到端一致性: exactly-once传输过程要保证exactly-once, 需要内部能够实现状态保存, 当下游保存失败时, 能够更加保存的历史状态再次提交数据.而下游接受数据, 需要具备去重能力. 去重有两种方式:幂等写入, 事务写入内部: 支持checkpoint或者状态保存下一级: 数据不会被重复写入幂等写入根据key去重, 比如k-v数据库: hbase, redis事务写入...
2020-06-25 18:07:00
1073
原创 SparkSQL & Spark on Hive & Hive on Spark[转载]
SparkSQL & Spark on Hive & Hive on SparkSpark On Hive, 将Hive做为数据库, 获得表数据后, 使用Spark SQL对表操作.Hive On Spark, 将Hive的计算引擎替换Spark RDD操作....
2020-06-25 15:59:00
135
原创 hive常用的日期函数(转载)
转载: hive常用的日期函数## 当前日期和时间SELECT current_timestamp();-- 2018-04-28 11:46:03.136## 获取当前日期,当前是 2018-04-28SELECT current_date;ORSELECT current_date();-- 2018-04-28## 获取unix系统下...
2020-06-25 11:37:00
200
原创 flink底层API:KeyedProcessFunction
KeyedSteam可以调用process方法, 该方法可以接受一个KeyedProcessFunction类型的参数. KeyedProcessFunction类型的上层父类是RichFunction,对分流后每一个元素调用一次KeyedProcessFunction中的elementProcess方法,可以通过Context调用timeServier, 注册定时器, 获...
2020-06-23 19:51:00
324
原创 拉链表
概述过程:新建初始表, 增加开始时间, 结束时间, 两个字段新建临时表, 包含开始时间, 与结束时间修改初始表(旧表)中变化数据对应的结束时间后, 将初始表(旧表)数据插入到临时表中, 之后UNION ALL 当天的新增与变化数据.将临时表覆盖初始表(或旧表)的数据核心是生成临时表的两步:只要修改旧表中变化数据的日期(当天日期-1)...
2020-06-23 19:14:00
285
原创 大数据去重与布隆过滤器
使用set去重的问题: 只要用到set就需要完整的数据集, 大量数据会导致OOM大数据去重的唯一解决方案是布隆过滤器[详解布隆过滤器的原理]( https://zhuanlan.zhihu.com/p/43263751)计算bloom filter误判率...
2020-06-20 10:26:00
292
原创 推荐算法简介
推荐系统的分类根据不同分类原则可以对推荐系统进行分类.根据实时性分类:离线推荐实时推荐根据是否个性化分类基于统计推荐(热门推荐, 每个用户的推荐内容一样)基于个性化推荐根据原则分类基于相似性的推荐根据相似的人, 或内容进行推荐基于知识的推荐事先设定推荐规则基于模型的推荐通过机器学习发掘规则, 进行推荐根据数据源分类基于人口统计学的推荐用户数据, 一般难以获取基于内容的推荐基于协同过滤的推...
2020-06-18 16:04:00
156
原创 java获取resources文件夹中文件的路径
resources文件夹中的文件不会经过编译, 但是会和编译后的字节码文件打包到jar包中.获取resources文件夹中的文件的路径方法:String filePath = this.getClass().getClassLoader().getResource("文件名").getPath();11String filePath = this.getClass().getClass...
2020-06-17 19:48:00
3492
原创 Flink中设置事件时间
在flink中设置事件时间时需要将时间的表示转换为毫秒如果不需要转换def main(args: Array[String]): Unit = { // ... env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) // 将时间特性设置为事件时间 env.setPar...
2020-06-15 20:49:00
3301
1
原创 [转载]REDIS缓存穿透,缓存击穿,缓存雪崩原因+解决方案
REDIS缓存穿透,缓存击穿,缓存雪崩原因+解决方案 - 大码哥 - 博客园https://www.cnblogs.com/xichji/p/11286443.html
2020-06-15 20:48:00
81
原创 scala在Java中调用scala方法
例如在scala中的oject写个方法返回一个字符串. 该方法在java代码中使用.好处: scala支持多行字符, 以及字符串插值 Scala和Java方法的相互调用https://blog.youkuaiyun.com/u010398771/article/details/78885009 ...
2020-06-06 11:48:00
505
原创 spark缓存的作用, 避免行动算子重复计算
缓存的作用, 避免行动算子导致之前的转换算子重复计算(尤其是之前的转换算子中存在副作用) SparkCache的几点思考https://blog.youkuaiyun.com/qq_27639777/article/details/82319560 ...
2020-06-06 10:45:00
501
原创 A.class与a.getClass
They are actually different with regards to where you can use them. A.class works at compile time while a.getClass() requires an instance of type A and works at runtime. Th...
2020-06-02 06:50:00
168
原创 phoenix也能实现sql查询为什么在数仓中不用hbase代替hive
网上相关文章较少, 得到了一些结论:1 . 无法满足数据仓库调度对于数据体系依赖分析及元数据管理相关要求,故不能作为数据仓库的主要使用方式.2. hbase主要海量数据的存储,hive比较适合数据仓库分析相关大数据时代的争议:Spark 能替代 Hive 吗? ...
2020-06-01 21:23:00
487
原创 Spark中的transform, mappartions, foreachPartion,foreachRDD
Rdd.mapPartitions与Dstream.transform需要返回值RDDRdd.foreachPartion与Dstream.foreachRDD不需要返回值
2020-06-01 10:39:00
204
原创 一款资源管理器(支持多标签,shift键预览)
QTTabBar 「资源管理器」该有的样子 - 少数派 https://sspai.com/post/52521shiflt
2020-05-31 10:30:00
254
原创 cache(缓存)和buffer(缓冲)的区别
Cache核心作用是加快取用的速度.Buffer核心作用是用来做缓冲. 避免资源大量重复调用, 将多个调用合并成一个.缓冲和缓存名称是不一样的, 叫write-buffer和read-cache.两个误解:不要误解Buffer就是用来写的, Cache就是用来的不要误解Cache或Buffer一定就指内存. 只要是相对高速即可详见:Cache(缓存)和 Buffer(缓冲),主要区别是什...
2020-05-28 07:12:00
246
原创 redis如何删除list中特定索引的值
Redis可以通过LINDEX key index获取list中的特定值, 但无法直接删除特定索引下的值. LSET与LREM结合删除list中特定索引的值 两步: 先用LSET在指定索引位置上设置特殊值: LSET key index value在指定索引位置的值替换为value 再用LREM删除该...
2020-05-27 08:26:00
1862
原创 转载:HDFS-Datanode磁盘选择策略源码分析
Datanode节点会配置多块数据盘,当我们往HDFS上写入新的数据块,DataNode 将会使用 volume 选择策略来为数据块选择存储的磁盘目录。选择正确的策略可以避免单块磁盘数据过多.HDFS在写入时有两种策略:基于轮询策略(默认), 不考虑文件大小基于可用空间的策略HDFS-Datanode磁盘选择策略分析...
2020-05-26 20:45:00
165
原创 罗昭峰文献管理与信息分析mooc笔记整理
mooc网址:http://mooc.guokr.com/course/1301/文献管理与信息分析/mooc笔记:http://mooc.guokr.com/course/1301/文献管理与信息分析/note/第一至三周笔记整理:http://mooc.guokr.com/note/20617/分享的几句话:http://mooc.guokr.com/note/10141/课程中涉及...
2020-05-26 20:07:00
1370
原创 vim键盘
群里有分享一个很不错的vim键盘图, 这里也分享出来.常用:ZZ: 保存退出ZQ: 不保存退出A: 行尾追加i: 插入I: 行首插入:/ 搜索%s/x/y/g(全局替换)u 撤销命令...
2020-05-26 19:50:00
221
原创 redis中的设置bind绑定ip不是设置白名单
在redis的network设置中如果没有通过bind绑定ip, 并且也没有配置密码, 那么保护模式就开启, 只允许本机访问. 这里设置bind绑定ip, 绑定的一样是本机ip, 只是本机有多个ip, 选绑定. 而不是指白名单, 只有绑定后的主机才能访问该redis服务, 而是要想访问该redis只能通过该ip. 例如如果设置了band 127.0.0.1, 则只能...
2020-05-26 07:57:00
1376
原创 YARN调度架构中的AppMaster
YARN调度架构 esourceScheduler是YARN的调度器,负责Container的分配。 AsyncDispatcher是单线程的事件分发器,负责向调度器发送调度事件。 ResourceTrackerService是资源跟踪服务,主要负责接收处理NodeManager的心跳信息。 Appl...
2020-05-24 19:45:00
1162
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人