大数据计算
文章平均质量分 60
DanceDonkey
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Prometheus集成AlertManager实现告警
在receivers配置项中配置告警接收者的配置信息,可以配置邮件、企业微信以及自定义的webhooks,webhooks就是一个Http接口,当alertManager触发告警时,会自动调用配置的接口。编写一个SpringBoot的控制器,用于AlertManager告警时触发的回调。通过yml文件配置prometheus触发的告警规则。原创 2023-09-25 22:14:32 · 769 阅读 · 0 评论 -
SpringBoot集成Prometheus实现监控
这个指标的指标名是jvm_memory_max_bytes,标签是 {application=“blog”,area=“heap”,id=“Eden Space”,},而指标值是 7.1630848E7,将来使用PromQL查询时,标签可以起到筛选条件的作用。通过拿到MeterRegistry 自定义指标,这里定义了两种类型的指标,一种是Counter 计数器,值只增不减,一种是gauge,gauge类型可以随意修改。可以在上述的input输入框中输入PromQL进行对指标的查询。可以看到最新的指标值。原创 2023-09-21 23:43:48 · 2648 阅读 · 0 评论 -
窗口延时、侧输出流数据处理
AllowedLateness 需要设置一个延时时间,注意这个时间决定了窗口真正关闭的时间,而且是加上WaterMark的时间,例如 WaterMark的延时时间为2s,AllowedLateness 的时间为2s,那一个10的滚动窗口,0-10这个单位窗口正常的关窗时间应该是超过12s的数据到达之后就关窗。使用 OutputTag API 保证窗口关闭的数据依然可以获取,窗口到达AllowedLateness 时间后将彻底关闭,此时再属于该窗口范围内的数据将会流向 OutputTag。原创 2023-09-09 22:38:21 · 539 阅读 · 0 评论 -
时间语义与窗口
在DataStream上游数据流通过assignTimestampsAndWatermarks 分配watermark@Override@OverridecreateWatermarkGenerator 方法用于返回 WatermarkGenerator@PublicWatermarkGenerator 两个方法分别对基于事件的WaterMark以及周期性的生成watermark两种生成策略发射watermark。原创 2023-09-03 17:19:53 · 465 阅读 · 0 评论 -
Hive 建表客户端报错 missing EOF at “/“
后来把sql中的注释去掉以后,或者把注释开头替换成 – 此异常便可以解决。在创建表时,我使用的是idea客户端,报了如下错误。原创 2023-05-02 18:11:11 · 5924 阅读 · 0 评论 -
Hive metastore 元数据mysql库中文乱码
例如我们要查询某个表的数据,mysql会先去看这个表的数据用的什么编码规则,例如GBK,然后再根据这个编码规则解析成字符串,再把这个字符串用 character_set_results 指定的参数去编码好,发送给客户端。character_set_database这个参数指定的是数据库存储数据时用什么编码,默认是拉丁编码,如果数据库的表不指定编码,则默认继承库的编码,如果字段不设置编码,则默认继承表的编码。所以hive表默认使用latin编码时就已经出现了乱码,则再去解析数据传给客户端时自然也是乱码的。原创 2023-04-30 12:14:44 · 236 阅读 · 0 评论 -
MapReduce实现自定义分区与排序
在此案例中,如果运行此程序需要启动一个ApplicationMaster,1个MapTask,5个ReduceTask,总共7个Container,1个Container分配1G最小内存,1个CPU的话,则运行此任务需要7G内存 + 7个CPU。这个类的泛型非常重要,分别对应的Map输出的KEY,VALUE,那map输出的k,v就完全对应reduce的输入,所以这个接口的逻辑就完全实现了最终的数据有多少个分区。如果想根据自定义的业务逻辑实现分区,则需要继承Partitioner类。原创 2023-04-10 22:54:04 · 416 阅读 · 0 评论 -
ssh配置免密登录后不生效,ssh免密登录命令执行
如果是在A服务器上执行这条命令,则表示A服务器想要免密登录192.168.1.13,则这条服务器就需要接收A服务的公钥。如果是换行分开写,则成了交互式行为。如果是有多条命令执行,则要保证 ssh 主机 后面一定要有一条执行命令。ssh 192.168.1.100 “ls /home/omd” : ssh 【主机名】 【要执行的命令】如果提示bad owner 之类的报错信息,则需要修改当前用户家目录的属组的写权限。ssh 命令支持直接免密登录后执行某个命令。免密登录的服务器需要配置当前服务器的公钥。原创 2023-03-30 09:25:43 · 2873 阅读 · 0 评论 -
Linux的scp、rsync、以及集群分发脚本、ssh配置免密登录
A服务器要想与B服务器实现免密登录,两台服务器必须都要保存A服务器的公钥,当A服务器使用私钥进行加密后向B服务器,B服务器去授权Key中查找是否有A服务器的公钥如果有,则直接解密,那么当B服务器向A服务器发送消息时,需要使用A服务器的公钥,A服务器接收到消息以后,再使用私钥解密即可。以上的结果是b目录先多了a目录,a目录下面才是真正的文件,如果想要达到a目录下的文件直接复制到b目录下,不带有a这层目录的话需要在后面加 /或者/*。如果想把a目录下的所有内容,拷贝到b目录下,则要。ssh免密登录的实现。原创 2023-03-28 23:28:59 · 614 阅读 · 0 评论 -
SpringBoot集成Kafka
为了保证消息尽可能不丢失,kafka生产者在发送消息时要设置ack机制,如果ack值为1,则表示只要集群中的leader将此条消息保存到log文件中就行了,但是消费者端有HW机制,也就是说消费者端允许消费的消息只能是所有集群全部同步后的消息,这也是高可用的一种机制,保证leader宕机后的follower可以不丢失消息。groupId :指定此消费者所属的消费组,一个队列,或者一个分区同一个消费组中只能有一个消费者消费,当该消费者中的消费者宕机以后,触发kafka的reblance机制重选更新消费者。原创 2023-03-14 13:23:32 · 306 阅读 · 0 评论 -
Flink Table API以及SQL踩坑
如果在sql中使用了一些关键字以及函数,也会抛出异常,例如timeStamp,table,select等,所以在编写时 一定要避开sql中自带的关键字信息。这个报错是字段引用错误,往往出现在给字段取别名时出现,如果为一个字段指定了事件属性又起了别名,则一定要先指定属性再起别名。此异常大概率为sql字符串错误,需要检查sql中关键字之间是否缺少空格。原创 2023-03-03 11:34:22 · 887 阅读 · 0 评论
分享