- 博客(450)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注

原创 数仓建模—宽表的设计
宽表的设计为什么要建设宽表宽表的好处和不足如何设计宽表总结宽表的设计其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技......
2021-12-02 08:40:00
3119
1

原创 Flink计算pv和uv的通用方法
PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-...
2021-11-01 08:30:00
6431
14

转载 数仓建模分层理论
分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构...
2020-12-12 10:58:40
1893

原创 hadoop 数据迁移
数据迁移使用场景冷热集群数据分类存储,详见上述描述.集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等.数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一......
2018-11-18 13:19:36
5360
原创 如何为千万级用户做个性化推荐
LightFM是许多流行的推荐算法的Python实现,用于隐式和显式反馈,包括BPR和WARP排名损失的有效实现。它易于使用,速度快(通过多线程模型估计),并产生高质量的结果。它还可以将项目和用户元数据合并到传统的矩阵分解算法中。它将每个用户和项目表示为其特征的潜在表示的总和,从而允许推荐泛化到新项目(通过项目特征)和新用户(通过用户特征)。在Python中安装,最好保证Python的版本在3.9...
2024-09-20 18:27:21
788
原创 用了这个取数工具,领导再也不用找我取数了
最近由于产品需要直接看数据库数据,这样比较灵活省事,他们想看啥数据,只要提前配置好,随时都能自己看,也减轻了数据组频繁取数的工作,用了redash这个在线取数工具。我们是运维部署的开源免费版本,功能比较简单,跟英文原版相比,是个阉割版本的,但是英文不太好安装,中文免费版有文档,也有专业版,先介绍一下我们使用的一些感受,然后再简单介绍它。1. 支持的数据源支持丰富的数据源,大致看了下,几乎支持所有我...
2024-09-14 16:12:19
312
原创 数据分析三剑客(numpy、pandas、matplotlib)的安装
本文档安装视频,可以照着视频做:https://www.bilibili.com/video/BV1sR4y1W7UM。:这是我的个人博客,欢迎你的到来,https://www.ikeguang.com/?回车进入安装,我之前已经安装完成了,所以提示。回车进入安装,我之前已经安装完成了,所以提示。检测是否安装完成:在命令行输入。回车,不报错说明已经大功告成。回车,不报错说明已经大功告成。回车,不报错说明已经大功告成。,学习更多大数据技术。
2024-07-11 15:46:43
575
原创 clickhouse使用心得
clickhouse目前用在实时BI后台,只要数据稳定落库了,出报表很快,临时查询也很快,在使用过程中,对它的一些优点和不足也是深有体会,这里总结一下,不能做到面面俱到,但尽可能详细的介绍实际应用需要注意的问题和应用技巧。我们是通过编写Flink程序,消费kafka数据,将数据清洗,扩充维度,然后落在clickhouse里面,半年以来,Flink程序很少出问题,数据落库也很稳定。对于clickho...
2024-03-18 17:37:29
1109
原创 年底公司又裁员,我该何去何从
太突然了,周四的时候,领导突然跟我说把xxx同事的工作交接一下,我心想他这是被裁员了吗,我问了一下,领导说是的。其实年中时候,已经在陆陆续续裁员了,只是当时技术这边没咋动。然后中午吃饭时候我跟xxx同事聊,才知道这次裁员每个组都得出人,这是老板要求的,并且跟HR说最迟2月底前走人。他说第二天跟HR谈赔偿,后来得知,果然是N+1赔偿,毕竟是正规公司,肯定会妥善处理裁员的。周五他是最后一天,还有其它几...
2024-02-06 20:17:32
555
原创 我是如何找到老婆的
本文不聊技术,聊聊我跟我老婆从认识到现在的过程。我们是2022年过年的时候在网上通过soul认识的,当时是大年初一,我爷爷跟我说,现在过年了,大家回家父母都在催找对象,你也去网上找。听到这话,我懵了。说的轻巧,网购一个吗,但是我还是打开手机,下载了软件。开始在里面看别人发的帖子,太多了,我也发个帖子,没人理我,哈哈。然后我就加了个湖北的群,我进去做了自我介绍,还是没人理我,我发现群里30多个人,只...
2024-01-12 08:17:47
1111
原创 Flink异步IO
本文讲解 Flink 用于访问外部数据存储的异步 I/O API。对于不熟悉异步或者事件驱动编程的用户,建议先储备一些关于 Future 和事件驱动编程的知识。本文代码gitee地址:https://gitee.com/ddxygq/BigDataTechnical/blob/main/Flink/src/main/java/operator/AsyncIODemo.java对于异步 I/O 操作...
2024-01-10 16:46:49
770
原创 我们领证啦
是的,我们领证了。在跟她经历2年时间的相处后,我们在今天2024年1月5日正式办理了结婚登记。其实这次还是有那么一点点波折的,因为外地人无法在上海直接领结婚证,但是这个日子是我爷爷请算命先生帮我们看好的,所以我们决定回到我的老家湖北十堰办理结婚登记。今天请了一天假,考虑到怕一些突发事件,因为我们同省不同市,我怕还要什么证明,我们选择了坐飞机,预留一些时间,比如资料不齐要补资料什么的。因为6点20的...
2024-01-05 19:00:02
438
原创 Flink窗口与WaterMark
本文目录窗口的生命周期Window Assigners窗口函数(Window Functions)TriggersEvictorsAllowed Lateness窗口窗口(Window)是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理。本文的重心将放在 Flink 如何进行窗口操作以及开发者如何尽可能地利用 Flink 所提供的功能。下面展示了 Flink 窗...
2024-01-04 18:13:53
1208
原创 Flink状态容错savepoint与checkpoint
本文目录CheckpointsState BackendsSavepointsCheckpoints 与 Savepoints区别Flink可以保证exactly once,与其容错机制checkpoint和savepoint分不开的。本文主要讲解两者的机制与使用,同时会对比两者的区别。CheckpointsCheckpoint 使 Flink 的状态具有良好的容错性,通过 checkpoint ...
2024-01-02 09:52:11
1419
原创 再见,2023年
2023年终于是要过去了,这一年是令人难忘的一年。作为95后的我,可能跟大多数同龄人一样,度过了人生中真正意义上的经济萧条的一年。美联储加息,物价通胀,消费通缩,企业裁员,房贷压力等等,让我们真正感受到了什么叫大环境不好。但是我相信,这只是暂时的,明后年经济大概率会复苏。作为普通人的我们,能做的只是站稳脚下,不激进、不气馁,苟着,如果再能静下心来学习总结那更好。说起学习这件事情,其实真的挺难的。就...
2023-12-31 22:27:08
403
原创 Flink DataStream 编程模型
都说IT今年很难,越是在这个时候越是要坚持,相信总能看到黎明与曙光。这不我准备整理一下教程,对自己也是一个学习、总结的过程,我相信待到经济复苏,IT仍然是热门。本文是我的第一篇付费文章,这是个开篇纵览,后面会深入讲解Flink理论与开发,不限于Flink这一个组件,后面也会有Spark、Clickhouse等等,代码也会配套同步到Gitee上面(Gitee地址见文末)。目录Flink 架构流处...
2023-12-28 18:03:47
1390
转载 数仓工作中的常见问题及解决方案
数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID来源数据社今天给大家分享一篇数仓工作思考的文章。 小 A 糊里糊涂进入一家网约车出现服务公司,负责公司数仓建设,试用期主要一项 K...
2023-07-07 13:56:04
591
转载 Flink CDC 2.4 正式发布,新增 Vitess 数据源,更多连接器支持增量快照,升级 Debezium 版本...
01Flink CDC 简介Flink CDC[1]是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。作为新一代的实时数据集成框架,Flink CDC 具有全增量一体化、无锁读取、并行读取、表结构变更自动同步、分布式架构等技术优势,同时社区提供了完善的中英文文档支持[...
2023-06-30 11:31:04
467
转载 数据血缘落地实践
数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID本文来自PowerData李奇峰在复杂的社会分工协作体系中,我们需要明确个人定位,才能更好的发挥价值,数据也是一样,于是,数据血缘应运而生。今天这篇文章会全方位的...
2023-06-29 11:37:32
1656
转载 ClickHouse主键索引最佳实践
在本文中,我们将深入研究ClickHouse索引。我们将对此进行详细说明和讨论:ClickHouse的索引与传统的关系数据库有何不同ClickHouse是怎样构建和使用主键稀疏索引的ClickHouse索引的最佳实践这篇文章主要关注稀疏索引,clickhouse主键使用的就是稀疏索引。数据集在本文中,我们将使用一个匿名的web流量数据集。我们将使用样本数据集中的887万行(事件)的子集。未压缩的数...
2023-04-28 08:40:42
2434
原创 ClickHouse MergeTree引擎
Clickhouse 中最强大的表引擎当属 MergeTree (合并树)引擎及该系列(*MergeTree)中的其他引擎。MergeTree 系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。这使得您能够创建一个小型的稀疏索引来加快数据检索。在相同数据集和相同结果集的情况下 ClickHouse 中某些带分区的操作会比普通操作更快。
2022-12-22 10:47:56
681
原创 Flink SQL管理平台flink-streaming-platform-web安装搭建
文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。这个工具不是Flink官方出的,是一个国内的小伙伴写的,Github地址:是不是觉得很强大,很多同学已经摩拳擦掌想试试了。
2022-12-02 09:51:18
892
原创 Flink SQL管理平台flink-streaming-platform-web安装搭建
公众号文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。这个工具不是Flink官方出的,是一个国内的小伙伴写的,Github地址:ht...
2022-12-01 18:31:21
123
原创 Flink同步Kafka数据到ClickHouse分布式表
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。列式数据库更适合于OLAP场景(对于大多数查询而言,处理速度至少提高了100倍),下面详细解释了原因(通过图片更有利于直观理解),图片来源于ClickHouse中文官方文档。行式列式我们使用Flink编写程序,消费kafka里面的主题数据,清洗、归一,写入到clickhouse里面去。
2022-12-01 09:42:23
570
1
转载 看完这篇, FlinkSQL 统统能整明白了
马云曾在一次演讲中说道:“未来的时代,将不再是 IT 时代,而是 DT 时代。”的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:云计算技术的发展会降低功能开发的难度,很多开发会向低代码方向发展。大数据的价值空间正在逐渐形成,而围绕大数据进行价值化操作将是一个新的发展趋势,人才需求会更集中。大数据是人工智能的基础,但...
2022-10-24 08:47:06
580
原创 flink-cdc同步mysql数据到hive
本文首发于我的个人博客网站: ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysqlHiveflink ...
2022-09-30 10:35:07
1476
原创 flink-cdc同步mysql数据到hbase
本文首发于我的个人博客网站:https://www.ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysq...
2022-09-29 08:30:11
1599
1
原创 flink-cdc同步mysql数据到kafka
本文首发于我的个人博客网站:https://www.ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysq...
2022-09-24 09:56:23
120
原创 paddleocr安装与图片识别快速开始
很不幸,这个命令失败了,pip命令找不到这个版本,那么需要自己手动下载whl文件,安装了。点击旧版本安装,到这个页面,因为我们的cuda是10.0版本的,我们浏览器全局搜索,这里使用gpu版本,需要安装cuda,先查看cuda版本。下载后,解压,编译,安装,即可。到这里为止,已经成了90%。
2022-09-20 14:49:35
1135
原创 flink-cdc实时增量同步mysql数据到hbase
CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
2022-09-16 15:39:49
1948
原创 flink-cdc实时增量同步mysql数据到hive
CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
2022-09-16 14:23:03
2924
3
原创 flink-cdc同步mysql数据到elasticsearch
数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核...
2022-09-16 08:40:57
423
原创 flink-cdc实时增量同步mysql数据到kafka
CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
2022-09-14 18:34:56
3141
原创 flink-cdc实时增量同步mysql数据到elasticsearch
CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
2022-09-13 17:45:45
2522
1
原创 mysql索引不生效
并不是索引越多越好,索引是一种以空间换取时间的方式,所以建立索引是要消耗一定的空间,况且在索引的维护上也会消耗资源。本文首发我的个人博客可以看出目前这张表是有3个索引的:我往这张表里面导入了10万多条记录。
2022-09-08 09:57:50
915
原创 logstash同步mysql数据到elasticsearch
更多知识,可以前往我的个人博客网站: 等待下一个秋-Python3. 新建索引4. 编辑配置文件,重要配置参数说明:参考资料
2022-08-03 14:06:50
505
原创 Python常用基础语法知识点大全
面向对象每一个变量都是一个类,有其自己的属性(attribute)与方法(method)。语法块用缩进(四个空格)而不是分号、花括号等符号来标记。因此,行首的空格不能随意书写。注释行内用“#”号,行间注释写在两组连续三单引号之间’’’续行行尾输入一个反斜杠加一个空格(’\‘),再换行。如果行尾语法明显未完成(比如以逗号结尾),可以直接续行。打印与输入函数print()与input(),注意print()的sep与end参数。变量变量复制的一个例子。使用。...
2022-07-21 13:50:02
794
1
原创 Python3 Linux 安装教程
去Python官网下载windows安装包,按照安装向导一直点击下一步即可,安装向导最好勾选,这样就不用手动添加环境变量了。安装比较复杂,需要安装一些系统依赖,再编译安装。1).下载源码tar包注:国内华为镜像下载会稳定快些,https://mirrors.huaweicloud.com/python/ , Python官方所有版本列表:https://www.python.org/downloads/ 。2). 解压解压完成后cd进入解压的目录。3). 编译、安装准备编译环境完成后,依次执行以
2022-07-13 10:11:08
491
原创 Python进程管理神器——Supervisor
Supervisor 是一款 Python 开发的进程管理系统,允许用户监视和控制 Linux 上的进程,能将一个普通命令行进程变为后台守护进程,异常退出时能自动重启详细介绍查阅:Supervisor IntroductionSupervisor 支持 Linux 和 Mac,不支持 Windows本文系统为: 安装完成后,在Python 下面会有这样几个文件。注:由于python bin目录是加入了环境变量,所以可以直接执行这几个文件。若报错 -bash: /etc/supervisord.co
2022-07-12 16:39:31
519
docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https
2023-06-15
2022年Python爬虫最全资料【6年爬虫经验精华总结】
2022-07-07
hadoop-2.7.2 windows7环境编译文件(winutils.exe、hadoop.dll)
2018-03-07
谁知道python3怎么安装包scrapy,谢谢。
2017-02-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人