- 博客(114)
- 资源 (1)
- 收藏
- 关注
原创 【mysql实践】如何查看阿里云RDS的MySQL库中的binlog日志
此次操作仅为备忘,也希望这篇【mysql实践】如何查看阿里云RDS的MySQL库中的binlog日志 对大家有帮助。
2023-07-07 18:28:00
4069
1
原创 【clickhouse实践】clickhouse如何在查询中对某字段空值设置默认值及对Nullable值的处理
IFNULL函数用于将一个可空性列中的空值替换为指定的默认值。是要检查的列名,是用于替换空值的默认值。这些是笔者在生产实践中的学习的尝试的一些总结实践,特此备忘,也希望对大家有所帮助。
2023-07-04 11:45:39
7652
1
原创 Flink CDC报The connector is trying to read binlog starting at xxx but this is no longer available问题解决
在FlinkCDC的issues,我见到了比较多的人提了问题,官方建议mysql 侧 binlog文件日期保留长点但是,依然解决不了问题。并且对于读账号问题10s问题阿里云官方并未说明,笔者也是咨询大佬才了解到。社区有人建议试试加这个配置笔者尚未实践,之后考虑加一下试试。如果大家和笔者一样实在没有办法就选择重启吧。FlinkCDC对这个问题的优化并没有很好。
2023-06-09 13:30:36
3580
7
原创 Flink消费kafka报akka.pattern.AskTimeoutException: Ask timed out on [Actor[akka.tcp://flink@xxx]]after x
我们在使用flink的时候还是得多了解底层原理才行。
2023-05-24 16:45:21
3849
3
原创 mysql8之前如何实现row_number() over(partition by xxx order by xxx asc/desc)
学学其他大佬我们也来总结总结公式要想实现row_number() over(partition by 分组字段 order by 排序字段 desc)set @分组字段 = null;set @顺序字段 = 0;
2023-05-19 13:31:48
2569
1
原创 mysql 解析json字符串、数组字符串、json数组字符串
这是目前笔者使用JSON_EXTRACT函数的一些浅见,欢迎大家在评论区,交流经验和问题。
2023-05-16 10:05:20
6850
1
原创 flume1.8兼容hadoop3 bug
下的guava-xx.jar,将其升级到两者中的较高版本。jar包这里笔者就不在给出了,大家可以直接去官网下载。下的guava-xx.jar和hadoop 下。
2023-05-05 11:40:23
268
1
原创 hdfs副本缩减
由于最近集群磁盘报警频繁,需要对磁盘进行扩容或者清理,但是扩容后阿里云磁盘资源不能缩容回落,成本上升。如果是减小副本数,我们目前阿里云集群是3个副本考虑成本和源数据(除了用户日志)在其他地方有全部数据等各方面原因我们降低了副本数。我们对日志数据的要求并没有特别严格。但是至少也需要两个副本。
2023-05-04 11:14:09
1008
1
原创 hadoop集群中存在配置较低的数据节点应用如何应对磁盘数据溢满的问题之rebalance
一般情况下集群在数据盘配置一样,几乎使用不到rebalance,但是我们的集群中有一个比较小的数据节点,因此我们需要关注各节点数据分布情况,及时进行rebalance。2、因为rebalance期间需要占用集群资源,因此尽快完成比较重要可以使用setBalancerBandwidth设置来增加每秒流量。我们为什么使用方案一,因为我们仅仅是将配置较低的节点当做计算节点使用,并非数据节点。登录hdfs web ui发现集群中一个节点的负载远高于另外的节点。1、启动rebalance。
2022-12-02 11:07:32
1022
1
原创 Hadoop HA 搭建发现新增namenode其他节点报Retrying connect to server 0.0.0.0:8032异常
问题是在笔者配置集群高可用时出现,刚开始集群正常后来出现了新增的namenode服务起不起来后来修改该节点hostname替换为0.0.0.0后才得已解决,但是这个问题困扰了笔者在搭建ha开始到解决问题的日日夜夜,今天突然集群报错,造成集群瘫痪掉。
2022-09-23 18:53:19
2269
2
原创 Sqoop import GC overhead limit exceeded 或者 Halting due to Out Of Memory Error解决思路
最近笔者在公司为公司搭建大数据集群已经小有成果,基本服务已经打通,也做了不少线上任务,但是在任务开发的过程中发现使用sqoop导数据经常会遇到资源不足导致报错,由于sqoop是java开发,虽然以前对这种问题屡见不鲜,但是在大数据集群中这些资源问题就显得特别多OOM,、甚至有时候还会出现GC的问题。笔者特此总结希望对大家有所帮助。
2022-09-23 18:12:35
1545
1
原创 hive开启自动转化common join和map join 带来的问题
我们采用的hive版本是3.1.2属于较新版本,此版本下hive本身默认开启map join。
2022-09-22 18:43:49
1239
1
原创 Dolphinscheduler调度生成工作流实例未生成任务实例解决历程 one result (or null) to be returned by selectOne(),but found: 2
问题发生在上线调度,手动启任务时出现,master报如下错误:发现好几个任务失效。
2022-09-22 18:32:07
5172
1
原创 Dolphinscheduler Master突报 [244] - handler error: java.lang.NullPointerException: null解决历程
今天笔者在使用dolphinscheduler进行任务调度时,发现运行工作流实例后没有生成任务实例,于是查看master日志,预料本应该是如下报错,却发现在处理完该报错后,还有一个报错并且该错误自一周前就开始出现整的笔者起初也是一脸懵逼。回归正题,我们阅读日志只能发现该报错为空指针异常,但是到底是什么引起日志里并没有说明。于是我换了一条思路,没有明确报错,又是一直在报,说明被调度任务一直在运行,于是我查看了web ui 首页监控发现果然有任务一直在跑。而任务实例一直没有,原来一直是这个任务在作怪。
2022-09-22 18:19:13
2680
4
原创 linux date命令
当您不希望出现无意义的 0 时(比如说 1999/03/07),则可以在标记中插入 - 符号,比如说 date ‘+%-H:%-M:%-S’ 会把时分秒中无意义的 0 给去掉,像是原本的 08:09:04 会变为 8:9:4。另外,只有取得权限者(比如说 root)才能设定系统时间。若是不以加号作为开头,则表示要设定时间,而时间格式为 MMDDhhmm[[CC]YY][.ss],其中 MM 为月份,DD 为日,hh 为小时,mm 为分钟,CC 为年份前两位数字,YY 为年份后两位数字,ss 为秒数。
2022-09-21 10:35:22
334
1
原创 如何不替换驱动jar包解决旧版本mysql驱动引起的No columns to generate for ClassWriter问题
bug解决的核心还是日志+理论。加油吧兄弟萌!
2022-08-04 14:31:30
757
1
原创 DolphinScheduler 资源中心创建文件资源错误
事情发生在新入职同事没有使用过,不明确DolphinScheduler对文件长度其实是有要求。
2022-08-01 11:18:33
2220
1
原创 数据查询必备技能SQL调优:Mysql什么情况下不走索引
今天领导在查询报表时,发现特别慢,于是引发一系列关于sql优化的工作,最终发现是分析同学在进行多表关联时进行不等值关联造成全表扫描,且使用字段无索引造成1W条数据表和20W数据表关联时执行缓慢。但是在MySQL中,并不是你建立了索引,并且你在SQL中使用到了该列,MySQL就肯定会使用到那些索引的,有一些情况很可能在你不知不觉中,你就“成功的避开了”MySQL的所有索引。......
2022-07-18 17:10:15
3178
2
原创 hive client 登录报权限不足问题/tmp/hive on HDFS should be writable. Current permissions are: rwx------
今早同事突然说,hive在服务器登录不上去了,报权限问题。集群一直好好的怎么报权限问题呢个?笔者问了问情况,了解到原来该同事是看tmp目录下存储的较多的数据觉得浪费空间所以清理了/tmp。为了帮助新同事萌了解问题提供解决思路,首先这个问题比较简单,添加权限就可以,明白tmp下目录信息,特此记录。............
2022-07-18 11:25:58
1296
1
原创 记一次hive查询报错解决 No enum constant org.apache.parquet.hadoop.metadata.CompressionCodecName.LZOP
在正常开发中建表进行数据插入测试,突然报错报错如下。
2022-07-13 18:51:06
1626
1
原创 重启集群造成块丢失问题org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for L
我于2022-06-10执行查询报错日志报错分析报错是在执行hive查询的时候报的,从报错我们可以看出这是一个map reduce阶段读取数据时候报错,是读取文件数据块异常的问题,我们可以理解为数据文件块损坏或丢失问题。遇到这个问题是因为之前升级HA集群关闭了较长一段时间,前端采集数据使用的是flume,关闭集群导致flume数据到hdfs文件没有正常关闭。因此在造成这个问题。因此我们需要找到没有正常关闭的文件并将他们修复。1、通过命令hdfs fsck /user/hive -openforwr
2022-06-10 15:49:41
1131
1
原创 mysql类型转换函数使用小记
1 常用转换函数介绍MySQL数据库中常用类型转换函数有两个一个是CAST函数,另一个是CONVERT函数。2 使用说明2.1 语法CAST(expr AS type)CONVERT(expr,type) CONVERT(expr USING transcoding_name)2.2 参数介绍MySQL类型转换函数参数 : CAST(xxx AS 类型) , CONVERT(xxx,类型) 这个类型 可以是以下值其中的 一个: BINARY[(N)] CHAR[(N)]
2021-10-14 09:47:49
612
1
原创 CDH hive建表注释中文乱码问题解决
1. 问题描述笔者在入职新公司后,由于现司大数据起步较晚,数仓还在初级建设阶段,集群使用CDH 5.10.0搭建比较古老,在筹建数仓是发现hive本身不支持中文注释,出现乱码。show create table equipment;CREATE EXTERNAL TABLE `equipment`( `id` bigint COMMENT '????', `customer_id` bigint COMMENT '??id', `eq_id` bigint COMMENT '设备id'
2021-10-08 11:10:18
1243
1
原创 超全Redis命令总结(备忘)(建议赶紧收藏)
1 Redis介绍1.基于内存的key-value数据库2.基于c语言编写的,可以支持多种语言的api //set每秒11万次,取get 81000次3.支持数据持久化4.value可以是string,hash, list, set, sorted set2 Redis的使用场景去最新n个数据的操作排行榜,取top n个数据 //最佳人气前10条精确的设置过期时间计数器实时系统, 反垃圾系统pub, sub发布订阅构建实时消息系统构建消息队列缓存3 启动与登录启动
2021-07-28 16:58:47
303
1
原创 Mac上IDEA显示某个类中有哪些方法的快捷键
1 背景作为一个程序员如果不能查看类中的方法结构实在是憋屈的难受;笔者因为之前用的是window没用过MAC这种高级产物,现在用的公司的MAC手比较生。其实这个具体看个人电脑的配置,这里笔者提供下自己的经验,希望能帮助大家。2 方法方法一:command +7会通过窗口展示类的结构,通过点击类中对应的方法,可以跳转到类中对应的位置,但窗口不会消失,如果想要关闭在按下command +7,效果如下所示:方法二:fn + F12同样的这种方式也可以通过窗口展示类的结构,通过点击类中对应的方
2021-07-27 16:38:01
5898
5
原创 记一次造成java.lang.ClassNotFoundException和java.lang.NoClassDefFoundError的操作及解决
1 背景:笔者在自己编写flink代码并进行本地测试时遇到,报错如下:这个问题明显是说在编译时JVM加载不到类或者找不到类导致的,于是报了java.lang.ClassNotFoundException,而且在运行时JVM加载不到类或者找不到类直接报错java.lang.NoClassDefFoundError,Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/flink/api/scala/typeutils/C
2021-07-27 11:59:50
4891
1
原创 Mac&Linux——关于配置环境变量造成-bash: ls: command not found所有shell命令无法使用的问题解决
1 背景:事情发生在笔者在自己的mac本上进行kafka集群搭建时,由于在家目录下配置环境变量cd vi .bash_profile保存退出后,进行了source使配置生效,随之进行ls操作。source .bash_profile操作报错如下:2 冷静分析怎么肥事?一脸懵逼???大写的问号???老子就在普通用户下source个环境文件怎么把系统的shell命令都干崩了???我强破自己冷静下来,经过一番思绪意淫,我幡然明悟,卧槽!!!原来原因如此简单!这就需要我们理解在普通用户下
2021-07-26 13:11:09
1305
3
原创 【clickhouse实践】clickhouse中如何实现ROW_NUMBER() OVER(PARTITION BY ‘xxx‘ ORDER BY ‘xxx‘ DESC/ASC)
0 背景HIVE中我们经常使用窗口函数中的排序函数ROW_NUMBER() OVER(PARTITION BY 'xxx' ORDER BY 'xxx' DESC/ASC)对数据集生成顺序编号或者进行数据去重的操作。然而在Clickhouse中没有提供该功能的函数,那么在clickhouse我们要想实现类似的功能我们应该如何实现呢?今天我们就来用实例说明下在clickhouse该如何实现ROW_NUMBER()功能。1 数据准备1.1 Clickhouse数据准备建表语句:CREATE TAB
2021-07-14 17:18:57
5670
5
原创 【clickhouse实践】关于clickhouse对空值的处理总结
1 背景在工作中,我们在使用spark dataset向clickhouse向表中批量插入数据时,经常遇到某个字段为NULL导致导数任务失败。出现如下报错:而我们在clickhouse按照正常方式建表时,然而我们并不能保证每条数据的每个字段都是非NULL值。...
2021-07-13 11:28:55
13326
1
原创 【用户画像】Clickhouse位图函数实践总结
1 位图概念说到位图我们就不得不从位算开始,虽然大部分语言都有提供位运算,但是,并没有提供一种类似于位数组的类型,要使用这些位运算,我们只能通过数字类型来实现,比如Java中的int/long等类型。而这些数字类型的数组,我们一般可以称之为“位图”(BitMap)。位图bitmap 是一种非常常用的结构,在索引,数据压缩等方面有广泛应用。所谓的 bitmap 就是用一个 bit 位来标记某个元素对应的 value, 而 key 即是该元素。由于采用了 bit 为单位来存储数据,因此在存储空间方面,可以
2021-07-12 17:36:08
3921
3
原创 【那些年,我们向往使用的git命令】git常用命令总结
1 Git 和 SVN 的区别类型描述Git分布式本地有镜像,无网络时也可以提交到本地镜像,待到有网络时再push到服务器SVN集中式无网络不可以提交, 和 Git 的主要区别是历史版本维护的位置2 安装 :Git 下载地址 (Linux/Unix, Mac, Windows 等相关平台)注意: 以下所有命令都在 Git Bash 中运行,不是 cmd, 拷贝命令的时候不用复制前面的 $ 符号### 配置所有 Git 仓库的 用户名 和 email $
2021-07-07 18:42:22
193
1
原创 【那些年,我们一脸懵逼的yarn命令】yarn基本命令实践总结(建议收藏)
1 yarn用法:yarn [--config confdir] [COMMAND | CLASSNAME]参数:resourcemanager作用: 启动resourcemanager。参数选项描述-format-state-storeRMStateStore格式化. 如果过去的应用程序不再需要,则清理RMStateStore, RMStateStore仅仅在ResourceManager没有运行的时候,才运行RMStateStore-remov
2021-07-06 10:52:28
3247
3
原创 SparkSql报错——记java.io.IOException: Illegal type id 0. The valid range is 0 to -1报错
报错现象21/07/03 09:44:02 WARN scheduler.TaskSetManager: Lost task 40.0 in stage 1.0 (TID 101, bj00-a-080-024-bdy.iyunxiao.com, executor 2): java.io.IOException: Illegal type id 0. The valid range is 0 to -1 at org.apache.orc.OrcUtils.isValidTypeTree(OrcUtil
2021-07-05 12:04:16
1617
1
原创 git 常见冲突—— git pull遇到报错Your local changes to the following files would be overwritten by merge
由于公司目前实行开发模块化,所以原来用的SVN代码管理器全部迁移到Git上去了,原来用过git现在已经忘的差不多了,目前暂时用的是SourceTree来管理代码的类似与SVN的Cornerstone的,今天在拉取服务器的代码的出现了冲突,记录下以供后续参考:1.用git pull来更新代码的时候,遇到了下面的问题:error: Your local changes to the following files would be overwritten by merge: xxx/xxx/xxx.php
2021-07-05 11:07:03
9331
5
原创 git 常见冲突解决——git push遇到报错error: failed to push some refs to ‘git@git.xxx.com:xxx/xxx.git
1 问题描述在提交代码时我们在本地直接执行如下命令:#添加修改代码文件到暂存区git add 'xx/xxx/xxx/test.json'#提交代码到本地仓库git commit -m 'insert xx/xxx/xxx/test.json'# 提交代码到远程仓库git push出现如下报错:To git@github.com:xxx/bd_tools.git ! [rejected] bd_tools2.0 -> bd_tools2.0 (non-fast-
2021-07-03 16:51:39
1341
1
原创 一文带你剖析常用Git操作的本质(建议收藏)
1 背景:作为当前世界上最强大的代码管理工具 Git 相信大家都很熟悉,最近想总结Git的原因是笔者在带新人和项目工作中经常发现一些不了解Git或者只会进行基本的操作,面对合并、回退等操作就一脸蒙蔽。一旦发生冲突就手足无措。工作中有很大一批人停留在 clone、commit、pull、push…的阶段,对 rebase 心里没底只敢用 merge,甚至连merge都不敢用,碰见版本回退就抓瞎?针对这些问题,今天我就将这几年对 Git 的认知和理解分享出来,尽可能的从本质去讲解 Git,帮助大家一步一步去了
2021-07-03 11:31:22
478
3
原创 21个写好SQL的习惯(建议收藏)
前言每一个好习惯都是一笔财富,本文分SQL后悔药, SQL性能优化,SQL规范优雅三个方向,分享写SQL的21个好习惯,谢谢阅读,加油哈~1. 写完SQL先explain查看执行计划(SQL性能优化)日常开发写SQL的时候,尽量养成这个好习惯呀:写完SQL后,用explain分析一下,尤其注意走不走索引。explain select userid, name, age from user where userid =10086 or age =18;2. 操作dele
2021-07-01 12:22:00
448
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人