- 博客(54)
- 资源 (5)
- 收藏
- 关注
原创 数据建模工具-PDManer使用技巧-贴源层
在数据治理过程中,我们经常和数据模型打交道,这时候我们就需要一个好的工具,来完成建模这个过程,PDManer就是本文的主角。
2025-03-31 07:00:00
725
原创 数据建模工具-PDManer使用技巧-模型层
在数据治理过程中,我们经常和数据模型打交道,这时候我们就需要一个好的工具,来完成建模这个过程,PDManer就是本文的主角。
2025-03-31 07:00:00
1411
原创 Apache DolphinScheduler系列8-任务组因MySQL时区报错及经验总结
在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,遇到了任务组功能因为MySQL时区的原因报错了,解决思路分享
2025-03-14 07:00:00
1054
原创 Apache DolphinScheduler系列7-SQL任务因注释报错及经验总结
不要轻视SQL分段难度作为 Apache 的顶级项目,迭代到 3.2.0 版本还有这种低级的问题,我想可以归结为,都轻视了 SQL分段的难度,觉得这个只需要简单的关键字切分就可以了,事实上,我们公司现在的软件也有类似的问题,简单的使用分号作为分割多段 SQL 的依据,当我们的建表语句里的 comment 里有英文分号,也会导致报错,当然也不只是个例,我记得我上次使用开源工具 Apache Zeppelin 也有类似的问题。不要重复造轮子,使用成熟工具。
2025-03-09 07:00:00
1129
原创 MySQL登录报错 Can’t connect to local MySQL server through socket
在使用MySQL的时候,出现这个报错,整理了一下解决思路
2025-03-08 07:00:00
873
原创 Apache DolphinScheduler系列6-Datax数据集成
在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些使用Datax做数据集成的实际经验
2025-03-06 07:00:00
822
原创 Apache DolphinScheduler系列5-告警配置经验分享
在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些告警配置实际经验,主要是使用飞书
2025-03-04 07:00:00
249
原创 MySQL批量生成建表语句
在使用MySQL的时候,遇到需要在大批量的表中,挑选一部分表,权限又只有只读权限,工具又没有合适的,最终使用了MySQL后台表,生成建表语句,具体的做法
2025-03-04 07:00:00
934
原创 Apache DolphinScheduler系列4-后台SQL经验分享
Apache DolphinScheduler系列4-后台SQL经验分享。
2025-03-02 07:00:00
892
原创 Apache DolphinScheduler系列2-数据质量模块技术调研报告
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。
2025-02-27 07:00:00
974
原创 Apache DolphinScheduler系列3-任务配置经验分享
Apache DolphinScheduler系列3-任务配置经验分享。
2025-02-27 07:00:00
1072
原创 Apache DolphinScheduler系列1-单节点部署及测试报告
从部署环境的简介,到部署方案的介绍,以及实际的部署步骤,到解决具体的常见问题,最后给出简单的测试报告
2025-02-23 07:00:00
1437
原创 MySQL查询报错 Unknown type ‘245 in column 11 of 16 in binary-encoded result set 解决办法
MySQL查询报错 Unknown type '245 in column 11 of 16 in binary-encoded result set 解决办法。
2025-02-20 07:00:00
330
原创 Spark 和 Hive 的关系与区别
Spark 和 Hive 都是大数据领域的核心组件,但定位和实现方式差异显著。以下是基于架构、引擎、存储、内核和运行效率的详细对比
2025-02-17 07:00:00
720
原创 大数据内容总结
大数据从方向分为 数据建模、数据平台、数据算法。从时效性分 实时大数据和离线大数据。从使用开发语言分 Java、Scala、SQL。常用平台分 Spark、Flink、Hadoop等。从各个方向分析下大数据包含哪些内容。
2025-02-17 07:00:00
712
原创 SparkSQL大增量表取最新组织关系
表取最新用户组织关系,本身是个简单的逻辑,但是当数据量大到一定程度的时候,简单的关联已经太耗费资源,且不能满足执行速度的要求,我们可以通过拆分变化和不变的用户来优化。
2025-02-11 07:00:00
590
原创 SQL语句执行顺序及实际案例
本文主要是以MySQL数据库为例,介绍SQL语句执行顺序及其实际案例,为平时编写SQL时,会遇到的比较迷惑的问题,寻找底层思路。
2025-02-11 07:00:00
731
原创 大数据生态圈基础组件安装步骤
大数据生态圈有很多组件,而且需要多台机器才能良好的运行,以下从机器准备、环境准备、组件安装顺序的去完成大数据组件的安装。
2025-02-06 14:19:43
628
原创 Hive自定义函数简介及实践案例
本文概述了Hive自定义函数的简介及实践,阐述了自定义函数的功能与重要性。通过介绍UDF、UDAF和UDTF三种函数类型,并详细说明了它们的使用方式及作用。
2025-02-06 12:02:47
1072
原创 SparkSQL的UDF大数据量执行结果和HiveSQL的UDF不一致
因为Spark是线程不安全的,所以如果UDF使用了非线程安全的操作,那么就会导致不可预测行为,Hive是每个UDF在单独的JVM里执行,就会好很多。
2024-10-08 13:56:02
1071
原创 数据治理-1. 数据集成-总体方案
数据集成是广义上数据治理的第一步,只有成功的接入数据,才能谈下一步的治理,资产,应用,共享等。后面会针对集成的各种方式做实际操作的展开,一边记录,一边总结各种集成方式的具体遇到的问题和优缺点。
2023-02-08 15:01:21
407
原创 【springboot maven 本地包依赖】
springboot maven 本地包依赖一. 注册到本地maven(推荐)优势: 可以二次依赖,重复使用劣势: 同时使用这个工程的人,需要重复在本地安装这个包首先在本地安装本地依赖包(只需要安装jar包,如果有resource包,不需要重复安装)mvn install:install-file -Dfile=e:/openplatform-web%2Fopen-sdk-java-2.0.2.jar -DgroupId=com.seewo -DartifactId=open-sdk-jav
2022-03-21 19:56:04
1070
原创 日志采集展示系统grafana+loki
文章目录背景一、Grafana部署1.1 上传安装包1.2 登录grafana平台二、Loki部署2.1 修改配置文件2.1.1 修改loki中心节点配置文件2.1.2 修改loki采集日志节点promtail配置文件2.2 部署2.2.1 部署中心loki2.2.2 部署loki采集日志节点promtail(多节点)三、配置grafana连接loki3.1 按照图中点击 Configuration -> Data Sources3.2 添加loki数据源3.3 配置loki中心节点ip端口,save
2021-05-18 20:51:48
3074
1
原创 conda install 安装很慢并且Solving environment: failed with initial frozen solve.
问题描述:首先 安装 Anaconda,用来使用python3这时候需要自己的安装一些依赖包使用 conda install 安装很慢并且 报错 “Solving environment: failed with initial frozen solve.”原因分析:1.可能是由于未使用国内的镜像源,所以非常的慢2.可能由于conda是比较低的版本,需要更新解决方案:针对上诉两个肯能的原因有解决方案如下更改国内源vim ~/.condarcchannels: - https
2021-05-11 11:17:03
4705
1
原创 页面nginx 404报错
项目场景:上线了一个软件,并且使用nginx去代理,希望通过域名去访问问题描述:页面报如下错误原因分析:404 Not Found 是找不到这个服务的地址,并且有nginx的标识,说明 nginx 代理的ip端口配置的有问题解决方案:找到nginx 部署的那台服务器如果不知道 nginx 部署在哪个路径下可以执行如下指令ps -ef |grep nginx得到如下结果,可以看到nginx的部署路径然后进入nginx的配置路径,找到对应的 nginx.conf 文件找到web
2021-05-08 14:37:51
8937
1
原创 VirtualBox设置静态ip和主机访问
文章目录背景1.硬件环境2.网络连接种类一、网络选择二、实施步骤1.新增 仅主机(Host-Only)网络2.配置虚拟机网络3.虚拟机内部设置4. 防火墙设置总结背景1.硬件环境使用的虚拟机是VirtualBox,因为这个占用资源更少安装的机器是Centos7 版本主机的ip不是固定的,自动分配2.网络连接种类由下图可以看到,网络有很多种选择,但是我们常用的是这是三个网络地址转换(NAT)、桥接网卡、仅主机(Host-Only)网络为什么有这些网络选择呢,因为每种网络有着自己的特点,
2021-04-08 14:03:11
3166
1
原创 平台软件部署总结
平台软件部署总结文章目录平台软件部署总结背景问题及建议解决方法1) 软件整体上层设计缺失解决建议2) 数据库初始化脚本多库报错和不可重复执行背景最近接到了一个工作,就是有一个庞大的系统,大概约有16个大的功能项,每一个功能项都有而很多不同部署包,有jar,有zip,有war 等等,依赖有JDK,mysql,nginx,还有一些其他的通用依赖包,复杂且繁杂,部署的很痛苦部署过程也遇到了一个个的问题,都记录一下问题及建议解决方法1) 软件整体上层设计缺失我部署的这些软件包,都是很多团队,经过4-5
2021-03-31 20:35:39
744
windows安装spark2软件包.zip
2021-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人