- 博客(23)
- 收藏
- 关注
原创 clickhouse数据去重函数介绍(count distinct)
> clickhouse提供了许多的去重函数,有精确去重的以及非精确去重的,下面介绍下两种非精确去重函数:uniq、uniqHLL12、uniqCombined精确去重函数:uniqExact、groupBitmap
2022-06-09 16:55:34
20037
2
原创 clickhouse如何实现实现分区排序 类似HIVE的 row_number() over(partition by order by)函数
关于clickhouse如何实现分区排序 类似HIVE的row_number() over() 函数 实现,及几个clickhouse函数的解析
2022-05-14 19:46:50
2125
原创 由于自己粗心,flink多并行度进行状态编程场景下出现null异常
问题描述由于自己粗心,在flink程序中设置了并行度后,对数据进行keyby 进行状态编程时候,keyby对象和状态对象不是同一个导致keyby后的对象划分的分区与状态对象不一致而取不到,导致null异常。分析:由于使用的全局变量,然后在代码中粗心没区分。源码跟进流程:HeapValueState.updatepublic void update(V value) { if (value == null) { this.clear(); } else {
2022-04-13 12:38:49
1940
3
原创 DolphinScheduler 2.x版本在本地idea开发调试的环境配置
本地idea开发调试2.x版本的dolphinscheduler
2022-02-18 16:55:06
2542
3
原创 flink实时写入数据到 clickhouse 报错Could not initialize class ru.yandex.clickhouse.ClickHouseUtil
问题介绍:项目在使用clickhouse jdbc 将flink数据实时写入clickhouse时候,报错:Caused by: java.lang.NoClassDefFoundError: Could not initialize class ru.yandex.clickhouse.ClickHouseUtil解决:1.直接拿报错信息百度,没查到解决方法,只能自己在去想想办法了,最好的办法就是源码刚进去2.直接断点跟进源码 发现ClickHouseUtil 类下导入的包不存在,如图所示
2021-12-04 21:06:40
3956
原创 flink水印没有触发窗口结束计算问题详解
先说下水印的基本概念,对后面理解有帮助1.watermark特点1.watermark并不是event的一个属性, 而是一条特殊的数据记录(只用来触发窗口结束,不参与数据计算)2.watermark 必须单调递增,以确保任务的事件时间时钟在向前推进,而不是在后退(就算延迟数据到来了,比目前的水印小,他也不会倒退了,而是直接不赋值,return掉)在org.apache.flink.streaming.runtime.operators.TimestampsAndWatermarksOperator.
2021-11-20 15:54:50
2814
原创 数据治理平台对比及atlas的安装和介绍
第1节 数据治理平台对比目前数据治理的平台 开源并且有详细文档的话就三个Apache Atlas(Hortonworks) Atlas于2015年7月开始在Hortonworks进行孵化。 Atlas 1.0于2018年6月发布。git地址:https://github.com/apache/atlas官网:http://atlas.apache.org/DataHub (LinkedIn) LinkedIn开源出来的,原来叫做WhereHows 。经过一段时间的发展,datahub于2020
2021-05-14 14:28:37
5581
原创 HTML+Nginx+ngx_kafka_module+Kafka
需求:使用Kafka做日志收集。需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)说明:1、HTML可以理解为拉勾的职位浏览页面2、Nginx用于收集用户的点击数据流,记录日志access.log3、将Nginx收集的日志数据发送到Kafka主题:tp_individual架构:HTML+Ngi
2021-01-19 23:17:52
564
原创 azkaban multiple-executor模式部署
1、下载源码git clone git@github.com:azkaban/azkaban.git或者wget https://github.com/azkaban/azkaban/archive/3.52.0.tar.gz 2、编译进入到下载的azkaban目录中进行编译:yum -y install git yum -y install gcc-c++# Build Azkaban./gradlew build(这一步需要等待的时间略久,需要提前安装git、gcc等软件,否则会
2020-12-21 00:19:25
551
原创 redis集群搭建redisCluster及java连接集群
一:搭建redis5.0集群 redis-cluster 三主三从规划:linux121,linux122,linux123,各安装一主一从(注意集群创建时候需要redis中没有数据)1.创建目录,拷贝redis,并将slave中配置文件的port该为6380cd /opt/lagou/software/make install PREFIX=/opt/lagou/servers/redis-cluster/mastercp -r /opt/lagou/servers/redis/bin/redi
2020-12-02 09:14:35
1617
2
原创 zk报错:org.I0Itec.zkclient.exception.ZkMarshallingError: java.io.EOFException
当通过java获取zk节点下的数据时候报错:org.I0Itec.zkclient.exception.ZkMarshallingError: java.io.EOFException这是因为没有对数据进行序列化,这时我们可以自定义一个序列化的类(使用默认的SerializableSerializer()查看节点数据时,有可能会出现乱码),自定义序列化类,如下:public class ZkSerializer implements ZkSerializer { //序列化,数据--》byte[]
2020-09-21 15:52:27
1234
原创 impala三大组件
impala启动的时候就会吧hive的源数据信息抽取到catalog中,中间hive如果有跟新源数据,这时候impala是没有去获取的所以是无感知的。然后impala跟新源数据信息后会广播到其他impala中,所以其他impala知道,并且还会跟新到hive的源数据信息,所以hive也知道...
2020-09-21 15:33:23
764
原创 Impala配置负载均衡后启动出现cannot bind socket [0.0.0.0:25003]
1.HAProxy⽅案安装haproxyyum install haproxy -y配置⽂件vim /etc/haproxy/haproxy.cfg具体配置内容listen impalashellbind 0.0.0.0:25003#ha作为proxy所绑定的IP和端⼝mode tcp#以4层⽅式代理,重要option tcplogbalance roundrobin#调度算法 ‘leastconn’ 最少连接数分配,或者 ‘roundrobin’,轮询分server impalash
2020-09-21 15:29:59
1202
1
原创 现有收集到用户的页面点击行为日志数据 对用户的日志数据打上会话内序号
业务背景现有收集到用户的页面点击行为日志数据,数据格式如下:user_id click_timeA,2020-05-15 01:30:00A,2020-05-15 01:35:00A,2020-05-15 02:00:00A,2020-05-15 03:00:10A,2020-05-15 03:05:00B,2020-05-15 02:03:00B,2020-05-15 02:29:40B,2020-05-15 04:00:00会话概念:用户的一次会话含义是指用户进入系统开始到用户离
2020-09-13 18:45:24
172
原创 hadoop启动后没有DataNode节点启动
在学习impala时候配置了HDFS集群的短路读取后重启hdfs发现DataNode未启动,一直处于安全模式中查看DataNode日志java.io.IOException: The path component: '/var/lib/hadoop-hdfs' in '/var/lib/hadoop-hdfs/dn_socket' has permissions 0755 uid 993 and gid 991. It is not protected because it is owned by a
2020-09-07 23:10:01
1033
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人