陆师傅说-优快云博客

原创 FlinkCDC实现主数据与各业务系统数据的一致性（瀚高、TIDB）

FlinkCDC实现业务系统主数据对应字段，用主数据系统主数据字段实时覆盖

2023-11-22 17:34:19 1997 4

原创 starrocks2.5.4 +ARM架构+Kylin v10 源码编译报错（be报错）：‘FLAGS_log_split_method’ was not declared in this scope

3、logconfig.cpp文件引入#include （本身已经引入的不用再次引入），然后找个starrocks的已安装的第三方库，路径一般为：/opt/starrocks/starrocks-2.5.4/thirdparty/installed/include/glog,这是编译好的，直接修改这个也可以，或者直接修改第三方库的源码中的glog/logging.h文件，重新编译三方库都可以；

2023-04-26 14:55:38 451

原创实战：Flink1.12异步IO访问外部数据-Mysql

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读本文结合官网和网络资料，讲解 Flink 用于访问外部数据存储的异步 I/O API。对于不熟悉异步或者事件驱动编程的用户，建议先储备一些关于 Future 和事件驱动编程的知识。Flink异步IO官方文档地址：https://ci.apache.org/projects/flin.

2021-08-19 09:39:53 1013

原创 Flink1.10进阶：Window的AllowedLateness介绍及与Watermark的综合实战详解

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读总结一下，这里结合了Watermark和AllowedLateness机制，进行了原理介绍和代码实战，最后代码测试中，输入了11条测试数据，并对每条输入数据的触发原理进行了详细的讲解，详细说明了每条数据的输入哪个窗口，如何触发窗口计算的，以及各条数据发送完成后，当前的watermark是多少，

2020-05-18 08:45:16 551

原创 HBase2.x精通：结合源码讲解Region的三种Spilt策略

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一、概述最近在工作中接触到split，于是查看了这块的源代码，先看到了split的策略，今天就说说这个吧；这里我是基于HDP版本的Hadoop集群，对应的HBase的版本为2.2.1，后续的分析都是基于该版本的源码做的分析，HBase-2.x支持7种Region自动拆...

2020-05-13 09:31:37 836

原创 Spark2.x源码剖析系列文章(共21篇|经典必读)

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读原文链接：https://mp.weixin.qq.com/s?__biz=MzIxNjE2NjU1OQ==&mid=2247484516&idx=1&sn=67d8e46ab8bb023edb88a13d2662fd7f&chksm=978c7d94a0f

2020-05-12 16:23:55 551

原创 Flink1.10入门：TableAPI自定义UDF实现WordCount

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一、概述本篇文章作为Flink的TableAPI&SQL的入门案例，在TableAPI自定义UDF函数，继承了TableFunction()函数来实现WordCo...

2020-05-08 13:57:27 668

原创 Flink1.10入门：自定义Redis的Sink函数

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一、概述这篇文章需要完成的是将实时数据写到Redis，我这里自定义了Ridis对应的Sink函数，为了方便直接从socket端接收数据，operator处理后，直接写入r...

2020-05-06 18:06:03 1124

转载 Flink入门：StreamingFileSink相关特性及代码实战

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一、概述 Flink流式计算的核心概念，就是将数据从Source输入流一个个传递给Operator进行链式处理，最后交给Sink输出流的过程。本篇文章主要讲解Sink端比较...

2020-04-27 20:14:05 5323

原创 Flink实战：自定义KafkaDeserializationSchema(Java/Scala)

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读 kafka中的数据通常是键值对的，所以我们这里自定义反序列化类从kafka中消费键值对的消息，为方便大家学习，这里我实现了Java/Scala两个版本，由于比较简单这里直接上...

2020-04-25 21:11:14 10458 8

原创 HBase1.x运维：Multiple regions have the same endkey报错处理

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读软件版本：hadoop2.7.3hbase1.2.5zookeeper3.4.61.问题描述：生产HBase集群由于批量导入20亿数据...

2020-04-21 08:50:23 1638

原创 Flink1.10实战：自定义聚合函数AggregateFunction

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一，概述 Flink 的AggregateFunction是一个基于中间计算结果状态进行增量计算的函数。由于是迭代计算方式，所以，在窗口处理过程中，不用缓存整个窗口的数据，所...

2020-04-16 07:49:57 12393

原创 Flink1.10入门：Checkpoint机制介绍

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一、Checkpoint概念上篇文章我们已经讲了Flink的状态管理，对于这些状态如何保存，我们一起学习一下Flink的Checkpoint机制。Flink本身为了保证其...

2020-04-14 21:37:59 811

原创 Flink1.10入门：状态管理介绍

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一、概述我们先来看Flink官方文档的第一句话：Apache Flink is a framework and distributed processing ...

2020-04-14 13:57:06 382

原创 Flink1.10进阶：ProcessFunction介绍及KeyedProcessFunction实例

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读一、ProcessFunction介绍从之前的文章我们知道，转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下，极为重要。例如我们常用的MapFunc...

2020-04-14 13:52:10 4718 1

原创 Flink1.10实战：两种分流器Spilt-Select和Side-Outputs

一、概述 Flink两种分流器Split和Side-Outputs，新版本中Split分流接口已经被置为“deprecated”，Split只可以进行一级分流，不能进行二级分流，Flink新版本推荐使用Side-Outputs分流器，它支持多级分流。二、分流器使用我这里有一份演示数据，里面是人的一些籍贯信息，每条数据有5个字段，分别代表：姓名、所在省份、所...

2020-04-14 13:40:09 978

原创 Flink1.10入门：Watermark机制及实例讲解

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈一、Watermark简介 Watermark是一种衡量Event Time进展的机制，它是数据本身的一个隐藏属性。通常基于Event Time的数据，自身都包含一个timestamp.watermark是用于处理乱序...

2020-04-12 22:27:28 980

原创 Flink1.10入门：时间机制简介

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈一、概述上篇文章介绍了Window窗口机制的相关知识，这里我们介绍下Flink的另外一个核心概念“Event Time机制”，本篇文章只介绍相关概念不讲实战，实战会结合Window窗口机制一起讲解。二、Flink中的三...

2020-04-12 22:25:49 529

原创 Flink1.10入门：Window窗口机制简介

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈一、Window概念上面是Flink1.10的官方文档的一句话，翻译了一下大体意思是：Window是处理无限数据流的核心，Windows将流分割为有限大小的“buckets”，我们可以在上面应用计算。...

2020-04-12 22:22:30 771

原创 Flink1.8批量Sink到HBase

实现背景：消费Kafka数据写入HBase时，单条处理效率太低。需要批量插入hbase,这里自定义时间窗口countWindowAll 实现100条hbase插入一次Hbase前面我就不写了直接上核心代码吧/*每10秒一个处理窗口*/DataStream<List<Put>> putList = filterData.countWindowAll(Con...

2019-10-12 17:44:24 3721 3

原创 HUE通过oozie工作流执行shell脚本

首先上传对应的jar包和storm.sh脚本到hdfs，脚本内容如下：脚本主要内容是：从hdfs下载jar包，然后利用storm jar ..命令提交storm任务，详细内容查看附件最后，点击保存，提交命令。stormui和yarn上都可以看到已经提交的任务。注意：提交任务user需要对操作的路径有权限。

2018-01-17 16:20:38 8027 1

原创 HUE配置Notebook提交spark

为执行Spark Job，Hue提供了执行服务器Livy，加强了Hue notebook对spark的支持。它类似于Oozie hadoop工作流服务器，对外提供了Rest Api，客户端将spark jar以及配置参数传递给livy，livy依据配置文件以及参数执行jar。hue配置文件*.ini中配置如下:1.测试scalahue登录

2017-12-29 22:33:58 4113

原创 hbase基于快照的数据迁移

hbase基于快照的数据迁移前期准备1. 对于开启安全认证（kerberos）的集群，首先需要关掉安全认证。2. 在源集群所有节点/etc/hosts文件中配置目标集群所有节点的host。源集群操作开启HBase快照1. 登录Ambari检查hbase-site.xml中的hbase.snapshot.enabled是否设置为true，确认打

2017-11-24 09:44:59 2437

SQuirrl安装使用手册-window10截图介绍修改明细

SQuirrl安装使用手册，我是在window10环境，连接apache大数据集群，详细介绍修改步骤

2018-11-28

hbase常见错误整理3年运维经验整理

长期支持生产项目过程中，积累的一些经验，从有道云笔记导出可能比较乱，但是问题报错信息和处理解决方案都写得比较详细

2018-11-28

recommendFlink.zip

Flink1.8消费kafka批量写入HBase,自定义实现批量写入窗口函数,实现了从kafka消费数据，过滤无用数据，自定义countWindowAll窗口，100条批量写入Hbase.整个而工程代码，下载可直接导入idea进行开发

2019-06-27

apache-tomcat-6.0.32-windows-x86.zip

tomcat-6.0.32 我以前使用过的tomcat服务器很好用的

2012-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人