大数据、数据仓库、数据治理、数据开发、数据库等相关数据方面经验分享~

在这个信息爆炸的时代，数据已成为企业最宝贵的资产之一。然而，如何有效地管理和利用这些海量的数据资源，成为了一个亟待解决的问题。本博客，旨在深入探讨大数据治理的各个方面，比如数据仓库建设与优化、数据治理框架与策略、数据开发与ETL流程、大数据生态圈组件

原创数据建模工具-PDManer使用技巧-贴源层

在数据治理过程中，我们经常和数据模型打交道，这时候我们就需要一个好的工具，来完成建模这个过程，PDManer就是本文的主角。

2025-03-31 07:00:00 725

原创数据建模工具-PDManer使用技巧-模型层

在数据治理过程中，我们经常和数据模型打交道，这时候我们就需要一个好的工具，来完成建模这个过程，PDManer就是本文的主角。

2025-03-31 07:00:00 1411

原创 Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表

Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表。

2025-03-24 07:00:00 2062

原创 Apache DolphinScheduler系列8-任务组因MySQL时区报错及经验总结

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，遇到了任务组功能因为MySQL时区的原因报错了，解决思路分享

2025-03-14 07:00:00 1054

原创 MySQL连接较慢原因分析及解决措施

在使用MySQL的时候经常遇到**连接比较缓慢**的问题，总结了一下原因和结局措施

2025-03-14 07:00:00 1082

原创 Apache DolphinScheduler系列7-SQL任务因注释报错及经验总结

不要轻视SQL分段难度作为 Apache 的顶级项目，迭代到 3.2.0 版本还有这种低级的问题，我想可以归结为，都轻视了 SQL分段的难度，觉得这个只需要简单的关键字切分就可以了，事实上，我们公司现在的软件也有类似的问题，简单的使用分号作为分割多段 SQL 的依据，当我们的建表语句里的 comment 里有英文分号，也会导致报错，当然也不只是个例，我记得我上次使用开源工具 Apache Zeppelin 也有类似的问题。不要重复造轮子，使用成熟工具。

2025-03-09 07:00:00 1129

原创 Doris数据库系列1-单节点安装

Doris数据库系列1-单节点安装。

2025-03-09 07:00:00 674

原创 MySQL登录报错 Can’t connect to local MySQL server through socket

在使用MySQL的时候，出现这个报错，整理了一下解决思路

2025-03-08 07:00:00 873

原创 Datax安装步骤及优劣势分析

Datax安装步骤及优劣势分析

2025-03-06 07:00:00 858

原创 Apache DolphinScheduler系列6-Datax数据集成

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，有了一些使用Datax做数据集成的实际经验

2025-03-06 07:00:00 822

原创 Apache DolphinScheduler系列5-告警配置经验分享

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，有了一些告警配置实际经验，主要是使用飞书

2025-03-04 07:00:00 249

原创 MySQL批量生成建表语句

在使用MySQL的时候，遇到需要在大批量的表中，挑选一部分表，权限又只有只读权限，工具又没有合适的，最终使用了MySQL后台表，生成建表语句，具体的做法

2025-03-04 07:00:00 934

原创 Apache DolphinScheduler系列4-后台SQL经验分享

Apache DolphinScheduler系列4-后台SQL经验分享。

2025-03-02 07:00:00 892

原创 Apache DolphinScheduler系列2-数据质量模块技术调研报告

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。

2025-02-27 07:00:00 974

原创 Apache DolphinScheduler系列3-任务配置经验分享

Apache DolphinScheduler系列3-任务配置经验分享。

2025-02-27 07:00:00 1072

原创数据仓库系列3-离线数仓和实时数仓

数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层

2025-02-25 07:00:00 429

原创数据仓库系列4-数据治理及质量建设

数据仓库系列 4-数据治理及质量建设。

2025-02-25 07:00:00 164

原创 Apache DolphinScheduler系列1-单节点部署及测试报告

从部署环境的简介，到部署方案的介绍，以及实际的部署步骤，到解决具体的常见问题，最后给出简单的测试报告

2025-02-23 07:00:00 1437

原创 MySQL中文获取拼音的方法

MySQL中文获取拼音的方法。

2025-02-20 07:00:00 521

原创 MySQL查询报错 Unknown type ‘245 in column 11 of 16 in binary-encoded result set 解决办法

MySQL查询报错 Unknown type '245 in column 11 of 16 in binary-encoded result set 解决办法。

2025-02-20 07:00:00 330

原创 Spark 和 Hive 的关系与区别

Spark 和 Hive 都是大数据领域的核心组件，但定位和实现方式差异显著。以下是基于架构、引擎、存储、内核和运行效率的详细对比

2025-02-17 07:00:00 720

原创大数据内容总结

大数据从方向分为数据建模、数据平台、数据算法。从时效性分实时大数据和离线大数据。从使用开发语言分 Java、Scala、SQL。常用平台分 Spark、Flink、Hadoop等。从各个方向分析下大数据包含哪些内容。

2025-02-17 07:00:00 712

原创 SparkSQL大增量表取最新组织关系

表取最新用户组织关系，本身是个简单的逻辑，但是当数据量大到一定程度的时候，简单的关联已经太耗费资源，且不能满足执行速度的要求，我们可以通过拆分变化和不变的用户来优化。

2025-02-11 07:00:00 590

原创 SQL语句执行顺序及实际案例

本文主要是以MySQL数据库为例，介绍SQL语句执行顺序及其实际案例，为平时编写SQL时，会遇到的比较迷惑的问题，寻找底层思路。

2025-02-11 07:00:00 731

原创大数据生态圈基础组件安装步骤

大数据生态圈有很多组件，而且需要多台机器才能良好的运行，以下从机器准备、环境准备、组件安装顺序的去完成大数据组件的安装。

2025-02-06 14:19:43 628

原创 Hive自定义函数简介及实践案例

本文概述了Hive自定义函数的简介及实践，阐述了自定义函数的功能与重要性。通过介绍UDF、UDAF和UDTF三种函数类型，并详细说明了它们的使用方式及作用。

2025-02-06 12:02:47 1072

原创数据仓库系列2-数据仓库规范、建模、任务

数据仓库系列2-数据仓库规范、建模、任务

2024-10-13 09:41:33 162

原创数据仓库系列1-数据仓库基础知识

数据仓库基础知识，分层架构

2024-10-13 09:28:08 392

原创 SparkSQL的UDF大数据量执行结果和HiveSQL的UDF不一致

因为Spark是线程不安全的，所以如果UDF使用了非线程安全的操作，那么就会导致不可预测行为，Hive是每个UDF在单独的JVM里执行，就会好很多。

2024-10-08 13:56:02 1071

原创 SparkSQL与Hive查询不一致问题

SparkSQL与Hive查询不一致问题

2024-10-08 11:30:23 780

原创数据治理-1. 数据集成-总体方案

数据集成是广义上数据治理的第一步，只有成功的接入数据，才能谈下一步的治理，资产，应用，共享等。后面会针对集成的各种方式做实际操作的展开，一边记录，一边总结各种集成方式的具体遇到的问题和优缺点。

2023-02-08 15:01:21 407

原创 Virtualbox主机与虚拟机相互访问

Virtualbox主机与虚拟机相互访问

2022-10-14 11:10:20 4162

原创 scala-tools mavent 打包出错原因

scala-tools 打包出错问题

2022-07-24 14:35:24 541

原创【springboot maven 本地包依赖】

springboot maven 本地包依赖一. 注册到本地maven（推荐）优势：可以二次依赖，重复使用劣势：同时使用这个工程的人，需要重复在本地安装这个包首先在本地安装本地依赖包（只需要安装jar包，如果有resource包，不需要重复安装）mvn install:install-file -Dfile=e:/openplatform-web%2Fopen-sdk-java-2.0.2.jar -DgroupId=com.seewo -DartifactId=open-sdk-jav

2022-03-21 19:56:04 1070

原创日志采集展示系统grafana+loki

文章目录背景一、Grafana部署1.1 上传安装包1.2 登录grafana平台二、Loki部署2.1 修改配置文件2.1.1 修改loki中心节点配置文件2.1.2 修改loki采集日志节点promtail配置文件2.2 部署2.2.1 部署中心loki2.2.2 部署loki采集日志节点promtail（多节点）三、配置grafana连接loki3.1 按照图中点击 Configuration -> Data Sources3.2 添加loki数据源3.3 配置loki中心节点ip端口，save

2021-05-18 20:51:48 3074 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Sublime Text 3.zip

PBIDesktopSetup_x64.exe

Navicat Premium 15.zip

scala-intellij-bin-2020.2.5.zip

windows安装spark2软件包.zip

空空如也