自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一个数据小开发的博客

分享和记录数据开发工作中遇到问题的解决思路

  • 博客(83)
  • 资源 (5)
  • 收藏
  • 关注

原创 [重磅]Flink CDC之Yaml最佳实践之踩坑日记

继上篇文章提到了如何在应用层来通过编写yaml文件远程提交到flink集群来跑文章之后,作者开始重点研究了下目前已经支持的Flink CDC的yaml pipeline 形式的内容 source&sink。01.YAML数据摄入YAML作业和SQL作业在数据传递过程中使用不同的数据类型:SQL传递RowData,YAML传递DataChangeEvent和SchemaChangeEvent。

2025-04-01 13:42:55 555

原创 【全网最详细教程】本地应用集成通过yaml文件远程提交Flink CDC任务来了!

flink cdc通过yaml文件 远程提交

2025-03-21 20:42:47 759

原创 JAVA后端面试大全

JAVA后端面试大全

2025-03-11 20:58:18 294

原创 最新中间件面试ppt

扫码回复“zjjmsppt”获取原始ppt,关注“睡前大数据”,回复“zjjmsppt”关键字,即可获取原始ppt。SATB算法为什么比CMS的增量标记快?MVCC在RR和RC隔离级别应用的区别?谈谈你对Zookeeper选举的理解?为什么要用Elasticsearch?Text和Keyword类型的区别?MVCC怎么判断某个版本的可见性?B+Tree为何不适合做全文检索?如何通过MQ实现分布式事务?Redis有哪些高级功能?你知道哪些ES数据结构?ES支持哪些类型的查询?三色标记法实现原理?

2025-03-11 20:52:21 316

原创 数据治理!数据治理!没有理论知识怎么治理呢??

数据的产生已 经完全不受时间、地点的限制, 大约每两年就会翻 一倍,换句话说,每两年产生的数据量相当于之前产生的全部数据量。信息数据的单位 由TB 一PB 一EB 一ZB的级别暴增,而这样的数据很明显已经远远超出了我们人力所能处 理的范围,因此大数据应运而生。而这也不仅仅体现在数据的大小上,同时也体现在数据的内容、 来源、结构上。随着数据的变化,我们 的 算 法 也 要 升 级, 同 样 , 我 们 以 往 的 数 据 管 理 方 式 与 思 路 也 无 法 完 全 适 应 , 也 需 要 创 新。

2025-03-08 21:14:04 464

原创 小白入门级教程Mac本地安装Idea

最近小白老师新入职了一家互联网公司,由于拿到的是全新的电脑,需要一顿安装一些开发环境,巨复杂,访问如下网站?

2025-03-06 21:37:07 158

原创 数据工程师该何去何从?如何面对越来越多的AI大模型的世界

从 OpenAI 的 GPT 系列到 Google 的 BERT,再到国内众多科技企业推出的各类大模型“豆包”,Deepseek等等,它们如雨后春笋般涌现,迅速改变着我们的生活和工作方式。这些大模型展现出了令人惊叹的能力,无论是自然语言处理中的文本生成、智能问答,还是计算机视觉领域的图像识别、图像生成等任务,都取得了突破性的进展。下面就是我收集的相关学习资料,想要的同学,关注后个人微信公众。如我开篇所举例的,数据工程师的门槛又降低了,同样也意味着替代性更强,未来极大可能就是最快被AI来替代的。

2025-03-03 20:54:18 131

原创 Kafka权威书籍,中英文版本的,你没见过吧??

通过示例代码展示生产和消费消息的基本方法,再结合实际案例的应用,Kafka 不仅提供了灵活的数据处理能力,还具备高扩展性和可靠性。:消费者从指定的Topic中拉取消息,消费后Kafka不会删除消息,而是记录Offset。:每个Topic可以分为一个或多个分区,每个分区是一个有序的消息队列,分区为消息并行处理提供了可能性。:消息存放的逻辑容器,生产者发布消息到Topic中,消费者从Topic中读取消息。:生产者将消息发布到指定的Topic中,消息会被分配到不同的分区。

2024-11-18 21:07:50 1165

原创 一秒让你掌握Java核心业务场景开发

你是否曾今有如此的困惑,死记硬背了那么多Java知识技能,但是会在什么场景下怎么使用呢?遇到了之后,应该怎么选择呢?如何才能更加标准的去使用这些知识技能点呢?Http等等这些,以下书籍里给你全方面一次性讲透讲明白。

2024-11-15 14:09:04 134

原创 业务开发问题之ConcurrentHashMap

在相当多的业务代码中看到过这个误区,比如下面这个场景。开发人员误以为使用了 ConcurrentHashMap 就不会有线程安全问题,于是不加思索地写出了下面的代码:在每一个线程的代码逻辑中先通过 size 方法拿到当前元素数量,计算 ConcurrentHashMap 目前还需要补充多少元素,并在日志中输出了这个值,然后通过 putAll 方法把缺少的元素添加进去。1、使用了 ConcurrentHashMap,不代表对它的多个操作之间的状态是一致的,是没有其他线程在操作它的,如果需要确保需要手动加锁。

2024-11-12 15:39:46 929

原创 大数据程序猿不可不看的资料大全

​ 随着大数据技术的发展,大数据程序猿在数据采集、处理、分析、存储等方面的技能需求不断增加。推荐学习《Learning Spark》这本书,深入掌握Spark Core、Spark SQL、Spark Streaming等组件在数据处理中的应用,更有Spark知识点的整理和学习。官方文档、GitHub上的开源例子和Flink社区的讨论,是理解这一技术的重要资源。:理解数据湖(如基于Hudi、Delta Lake等技术)和传统数据仓库的区别与优势,能够帮助开发者优化数据存储与分析的方案。

2024-11-10 22:16:27 743

原创 hadoop全网最全从0到1教程

hadoop知识点,从0到1全网最全知识点教程

2024-11-10 19:50:25 304

原创 让股票数据分析从此如此简单

你是否遇到过,此类事件,一直在上班,没办法自己长时间盯盘,而且,可能会出现,这种情况,各类股票类APP功能巨多,但是呢,自己有自己一套理论,但是又没办法定制,如果能自己定制那该多好?

2024-11-07 14:14:00 541

转载 股票数据分析监控

你是否遇到过,此类事件,一直在上班,没办法自己长时间盯盘,而且,可能会出现,这种情况,各类股票类APP功能巨多,但是呢,自己有自己一套理论,但是又没办法定制,如果能自己定制那该多好?

2024-11-07 14:07:12 117

原创 如何拥有一个自己的博客网站

如果你想要自己一个个人的独立的网站,个人独立的博客,但是你又不想花时间去写代码,或者说你自己又不会写代码,甚至于你自己又不会运维,那你可以联系我,让我来帮组你

2024-11-03 17:36:07 276

原创 大数据面试题专享

快来领取你的大数据面试专项题吧

2024-11-01 17:20:58 117

原创 HikariPool连接池报错(Possibly consider using a shorter maxLifetime value)

HikariPool连接池超时关闭问题详解

2024-10-18 10:56:54 1257

原创 数据分析Python for Data专业书籍pdf

随着大数据时代的到来,数据分析已成为企业决策、科学研究以及日常生活中不可或缺的一部分。对于想要学习数据分析的人来说,Python 是最理想的编程语言之一。其简洁的语法、强大的库以及丰富的社区支持,使得 Python 成为数据分析的首选工具。本文将为大家推荐几本基于 Python 的专业数据分析书籍,并讲解这些书籍的特色和适用人群,帮助你更好地入门或提升数据分析技能。

2024-10-17 15:19:41 410

原创 Axure零基础深入浅出的讲解

在当今的互联网产品设计领域,原型设计已经成为了产品经理、设计师和开发者之间沟通的桥梁。而Axure作为一款功能强大、灵活易用的原型设计工具,正是很多产品经理的得力助手。无论你是产品经理新手,还是资深设计师,Axure都能帮助你轻松地创建功能复杂、交互丰富的高保真原型。那么,如何从零开始学习并掌握Axure?我们的Axure从零到一学习视频将会是你最好的选择!

2024-10-17 14:15:44 540

原创 Axure几乎涵盖所有互联网行业的交互原型

在现代产品设计中,原型工具的选择对整个设计流程至关重要。Axure,作为行业领先的设计原型工具,凭借其强大的功能和灵活性,成为了无数设计师的得力助手。本文将深入探讨Axure的核心优势、设计技巧以及如何利用它提升你的设计效率。

2024-10-16 17:17:10 217

原创 Effective Unit Testing(单元测试)

单元测试,是一个特别特别重要的事,往往在软件开发过程中会得不到重视,但是这个能反应一个研发的素养和效率。

2024-10-16 12:02:18 153

原创 Effective Java Third Edition

Effective Java 权威第三版电子版来了。

2024-10-16 11:51:46 248

原创 从0-1入门Flink全网最全吐血总结

梳理Flink 的特点,并同另一个流行的大数据处理框架Spark 进行比较,从而更深刻地理解Flink。进而通过梳理数据处理架构的发展演变,解答为什么要用Flink 的疑问。随着 Flink 的快速发展完善,如今在世界范围许多公司都可以见到 Flink 的身影。Flink 是一个大数据流处理引擎,它可以为不同的行业提供大数据实时处理的解决方案。Flink 在国内热度尤其高,一方面是因为阿里的贡献和带头效应,另一方面也跟中国的应。面对数亿的日活用户、每秒数亿次的计算峰值,这对很多国外的公司来说是无法想象的。

2024-10-14 19:25:05 783

原创 Spark全网最全总结

虽然 MapReduce 提供了对数据访问和计算的抽象,但是对于数据的复用就是简 单的将中间数据写到一个稳定的文件系统中(例如 HDFS),所以会产生数据的复 制备份,磁盘的 I/O 以及数据的序列化,所以在遇到需要在多个计算之间复用 中间结果的操作时效率就会非常的低。Spark 产生之前,已经有 MapReduce 这类非常成熟的计算系统存在了,并提供 了高层次的 API(map/reduce),把计算运行在集群中并提供容错能力,从而实现 分布式计算。

2024-10-14 19:18:15 544

原创 主数据驱动的数据治理高清书籍领取

绝对高清版本的电子书,抓紧来获取吧~~~主数据驱动的数据治理。

2024-10-11 19:47:12 282

原创 数据治理为何如此简单?

免费获取数据治理ppt,一键打开使用!!

2024-10-11 16:00:10 637

原创 为什么你感觉手机在窃听?关掉这些开关,保护隐私安全

以电商平台为例,假设某个用户经常浏览家电类商品且大多数时间在晚上进行购物,平台便会根据如上掌握的你的个人标签数据推断你对家电有较高的兴趣,可能是一个生活节奏较快的上班族,因此推送的广告内容很可能会集中在家电促销,且推送时间可能选择在晚间。可以看到如下的截图中,有各种麦克风,位置,相册,摄像头这些传统的权限,但是大家可能会忽略目前很多的从其他App粘贴的这个权限,这个权限,会让你的粘贴板中的内,只要打开了某个app就会被获取到,就算你没想去复制粘贴查询,也会被收集,所以这个需要关闭掉。

2024-10-11 15:32:22 1240

原创 数据建模?数据仓库工具,维度建模权威指南第三版?来就对了!!!

维度建模的核心概念和实际应用,提供了丰富的案例和模板,帮助读者在复杂的数据环境中建立高效的数据仓库系统。书中提到的星型模式、雪花模式,以及各种设计模式(如退化维度、缓慢变化维度等),不仅是理论,还为实际项目提供了模板化的解决方案。对于从事数据仓库设计、开发的从业者而言,这本书是不可多得的必读佳作,也为希望深入理解维度建模精髓的技术人员提供了宝贵的理论和实践指引。在书的后半部分,作者深入探讨了跨行业的具体案例,涵盖了零售、金融、医疗等多个领域的数据仓库设计。

2024-10-10 11:30:31 303 1

原创 Flink On Hudi整个系列中可能遇到的问题

1、ERROR org.apache.hudi.sink.compact.CompactFunction [] - Executor executes action [Execute compaction for instant 20220331114224581 from task 0] errorERROR org.apache.hudi.sink.compact.CompactFunction [] - Executor execut...

2022-04-13 15:14:41 2470

原创 Flink CDC模式写入Hudi

1、前沿之前对数据湖的相关知识和怎么搭建都做了详细的讲解,感兴趣的可以去了解下数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi_一个数据小开发的博客-优快云博客从0到1搭建数据湖Hudi环境_一个数据小开发的博客-优快云博客接下来,就是Flink on Hudi的实战了,这一篇带来的CDC模式的入湖。2、实战2.1、启动本地环境export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpat...

2022-04-13 14:48:43 2261

原创 Flink SQL Kafka写入Hudi详解

Flink读写Hudi案列详解

2022-04-13 14:30:10 4631 3

原创 从0到1搭建数据湖Hudi环境

一、目标在本地构建可以跑Flink-Hudi、Spark-Hudi等demo的环境,本地环境是arm64架构的M1芯片,所以比较特殊,如果采用Hudi官网的docker搭建,目前不支持,本人也在Hudi的github上提过此类需求,虽得到了响应,但还是在部署的时候会出问题,然后基于其实Hudi就是一种对存储格式的管理模式,此格式可以是HDFS,也可以是各大云厂商的文件存储系统,例如阿里云的OSS,华为云的OBS等,都是可以支持的,所以本地只需要部署一套Hadoop架构就可以跑起来相关的案...

2022-04-10 21:09:20 10511 6

原创 数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi

数据湖概念首次于2010年被James Dixon在其博客帖子(Pentaho, Hadoop, and Data Lakes | James Dixon's Blog)中提及 :数据湖的权威定义(来自维基百科):数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和...

2022-04-06 11:01:38 27485 1

原创 数据湖Hudi专栏系列带你深入了解不一样的大数据技术

1、数据湖是什么?能干什么?为啥是数据湖?2、从0到1本地搭建数据湖环境3、数据湖典型应用,Flink实时流写入数据湖,spark读取数据湖里的数据。我即将分如上三个模块进行详细的讲解。此专栏摒弃数据湖官方的docker demo,自己在本地根据实际情况进行的环境搭建,因为当下随之发展越来越多的人开始使用M1芯片的arm64架构的电脑系统。...

2022-03-31 20:57:42 1974 2

原创 Push master to origin/master was rejected by remote

很多人 ,百度半天网上都是教你们按照他们的解决方案来,但你们真的懂原因吗?其实不见其然,所以本篇就告诉你怎么去找到问题的具体的报错和解决它。现象描述很多人都是本地pull正常,push报错,而且基本都是报Push master to origin/master was rejected by remote这个错误,其实,大家可以不用网上搜索的,因为git本地的运行日志告诉你答案了,你只需要在Idea的左下角的git按钮,就能看到他的日志。这个时候,再根据日志中的提示来解决问题。常见错误权限不够本

2022-03-17 14:42:06 9915

原创 Mac安装brew

mac电脑上类似于centos服务器上的yum源安装程序的方法

2022-02-25 16:22:03 1183

原创 Flink查询关联Hbase输出

1、前言大家在开发Flink的时候,很多时候会把某些固定的维度信息存储在Hbase或者Redis等这些第三方库里,已方便来跟流发生关联查询输出。本文将从如何本地搭建一个Hbase环境开始讲起,到如何构建一个Hbase公共调用类,到如何构建一个异步调用Hbase的公共代码,再到最后实际调用代码后的输出。2、本地利用Docker搭建HBase环境本地如何搭建Docker环境,之前一篇博客中已经详细描述过,大家如果想学习如何搭建,可以去看下,地址如下:Docker入门-Windows 10&.

2022-02-24 18:47:50 5563 7

原创 Flink CEP结合案例详解

1、介绍FlinkCEP是在Flink之上实现的复杂事件处理(CEP)库。它允许您在无穷无尽的事件流中检测事件模式,使您有机会掌握数据中重要的内容。通常会用来做一些用户操作APP的日志风控策略等多种复杂事件,下面详细以用户连续10s内登陆失败超过3次告警为需求,进行全面讲解。1.1、整体需求数据详解图...

2022-02-19 00:11:56 3022 1

原创 Flink利用KafkaSource读取Kafka数据做为数据源

虎年第一篇:在Flink的1.13版本以后,官方对FlinkKafkaConsumer类进行了过期设置,所以最好用KafkaSource来进行读取数据。pom文件<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</artifactId> <version>1.14.3</version>

2022-02-07 18:38:51 8030 3

原创 如何让Flink CDC的结果输出的更优雅一点?

上一篇博客中,我们提到了如何去通过StreamAPI访问Flink CDC的结果,但是往往很多时候,访问出来的结果都很难被下游直接使用,还需要做很多String类型的数据处理,这里就单独开一篇博客来讲讲如何,在读的时候,一次性做到数据根据我们的需要去展示,也就是展示的更加简洁优雅一点。不跟你多BB,直接上源代码,有疑问的可以评论区交流,感谢。import com.alibaba.fastjson.JSONObject;import com.alibaba.ververica.cdc.debezi

2022-01-02 14:42:45 1609

hudi-flink连接jar包

hudi-flink hudi flink arm64架构 M1芯片 Mac电脑的hudi-flink编译jar包

2022-03-28

M1芯片mac版本的mysql连接器

M1芯片 arm64位系统 mac版本 MySQL连接器

2022-03-28

Mac版的kafka连接器

Mac版的kafka连接器

2022-03-17

CityRange.csv

全国城市电子围栏范围

2021-03-27

install.zip

Linux下自动化安装mysql的shell脚本

2021-01-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除