自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据、数据仓库、数据治理、数据开发、数据库等相关数据方面经验分享~

在这个信息爆炸的时代,数据已成为企业最宝贵的资产之一。然而,如何有效地管理和利用这些海量的数据资源,成为了一个亟待解决的问题。 本博客,旨在深入探讨大数据治理的各个方面,比如 数据仓库建设与优化、数据治理框架与策略、数据开发与ETL流程、大数据生态圈组件

  • 博客(54)
  • 资源 (5)
  • 收藏
  • 关注

原创 数据建模工具-PDManer使用技巧-贴源层

在数据治理过程中,我们经常和数据模型打交道,这时候我们就需要一个好的工具,来完成建模这个过程,PDManer就是本文的主角。

2025-03-31 07:00:00 725

原创 数据建模工具-PDManer使用技巧-模型层

在数据治理过程中,我们经常和数据模型打交道,这时候我们就需要一个好的工具,来完成建模这个过程,PDManer就是本文的主角。

2025-03-31 07:00:00 1411

原创 增量日志明细处理共享经验总结

增量日志明细处理共享经验总结

2025-03-24 07:00:00 584

原创 Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表

Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表。

2025-03-24 07:00:00 2062

原创 Apache DolphinScheduler系列8-任务组因MySQL时区报错及经验总结

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,遇到了任务组功能因为MySQL时区的原因报错了,解决思路分享

2025-03-14 07:00:00 1054

原创 MySQL连接较慢原因分析及解决措施

在使用MySQL的时候经常遇到**连接比较缓慢**的问题,总结了一下原因和结局措施

2025-03-14 07:00:00 1082

原创 Apache DolphinScheduler系列7-SQL任务因注释报错及经验总结

不要轻视SQL分段难度作为 Apache 的顶级项目,迭代到 3.2.0 版本还有这种低级的问题,我想可以归结为,都轻视了 SQL分段的难度,觉得这个只需要简单的关键字切分就可以了,事实上,我们公司现在的软件也有类似的问题,简单的使用分号作为分割多段 SQL 的依据,当我们的建表语句里的 comment 里有英文分号,也会导致报错,当然也不只是个例,我记得我上次使用开源工具 Apache Zeppelin 也有类似的问题。不要重复造轮子,使用成熟工具。

2025-03-09 07:00:00 1129

原创 Doris数据库系列1-单节点安装

Doris数据库系列1-单节点安装。

2025-03-09 07:00:00 674

原创 MySQL登录报错 Can’t connect to local MySQL server through socket

在使用MySQL的时候,出现这个报错,整理了一下解决思路

2025-03-08 07:00:00 873

原创 Datax安装步骤及优劣势分析

Datax安装步骤及优劣势分析

2025-03-06 07:00:00 858

原创 Apache DolphinScheduler系列6-Datax数据集成

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些使用Datax做数据集成的实际经验

2025-03-06 07:00:00 822

原创 Apache DolphinScheduler系列5-告警配置经验分享

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些告警配置实际经验,主要是使用飞书

2025-03-04 07:00:00 249

原创 MySQL批量生成建表语句

在使用MySQL的时候,遇到需要在大批量的表中,挑选一部分表,权限又只有只读权限,工具又没有合适的,最终使用了MySQL后台表,生成建表语句,具体的做法

2025-03-04 07:00:00 934

原创 Apache DolphinScheduler系列4-后台SQL经验分享

Apache DolphinScheduler系列4-后台SQL经验分享。

2025-03-02 07:00:00 892

原创 Apache DolphinScheduler系列2-数据质量模块技术调研报告

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。

2025-02-27 07:00:00 974

原创 Apache DolphinScheduler系列3-任务配置经验分享

Apache DolphinScheduler系列3-任务配置经验分享。

2025-02-27 07:00:00 1072

原创 数据仓库系列3-离线数仓和实时数仓

数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层

2025-02-25 07:00:00 429

原创 数据仓库系列4-数据治理及质量建设

数据仓库系列 4-数据治理及质量建设。

2025-02-25 07:00:00 164

原创 Apache DolphinScheduler系列1-单节点部署及测试报告

从部署环境的简介,到部署方案的介绍,以及实际的部署步骤,到解决具体的常见问题,最后给出简单的测试报告

2025-02-23 07:00:00 1437

原创 MySQL中文获取拼音的方法

MySQL中文获取拼音的方法。

2025-02-20 07:00:00 521

原创 MySQL查询报错 Unknown type ‘245 in column 11 of 16 in binary-encoded result set 解决办法

MySQL查询报错 Unknown type '245 in column 11 of 16 in binary-encoded result set 解决办法。

2025-02-20 07:00:00 330

原创 Spark 和 Hive 的关系与区别

Spark 和 Hive 都是大数据领域的核心组件,但定位和实现方式差异显著。以下是基于架构、引擎、存储、内核和运行效率的详细对比

2025-02-17 07:00:00 720

原创 大数据内容总结

大数据从方向分为 数据建模、数据平台、数据算法。从时效性分 实时大数据和离线大数据。从使用开发语言分 Java、Scala、SQL。常用平台分 Spark、Flink、Hadoop等。从各个方向分析下大数据包含哪些内容。

2025-02-17 07:00:00 712

原创 SparkSQL大增量表取最新组织关系

表取最新用户组织关系,本身是个简单的逻辑,但是当数据量大到一定程度的时候,简单的关联已经太耗费资源,且不能满足执行速度的要求,我们可以通过拆分变化和不变的用户来优化。

2025-02-11 07:00:00 590

原创 SQL语句执行顺序及实际案例

本文主要是以MySQL数据库为例,介绍SQL语句执行顺序及其实际案例,为平时编写SQL时,会遇到的比较迷惑的问题,寻找底层思路。

2025-02-11 07:00:00 731

原创 大数据生态圈基础组件安装步骤

大数据生态圈有很多组件,而且需要多台机器才能良好的运行,以下从机器准备、环境准备、组件安装顺序的去完成大数据组件的安装。

2025-02-06 14:19:43 628

原创 Hive自定义函数简介及实践案例

本文概述了Hive自定义函数的简介及实践,阐述了自定义函数的功能与重要性。通过介绍UDF、UDAF和UDTF三种函数类型,并详细说明了它们的使用方式及作用。

2025-02-06 12:02:47 1072

原创 数据仓库系列2-数据仓库规范、建模、任务

数据仓库系列2-数据仓库规范、建模、任务

2024-10-13 09:41:33 162

原创 数据仓库系列1-数据仓库基础知识

数据仓库基础知识,分层架构

2024-10-13 09:28:08 392

原创 SparkSQL的UDF大数据量执行结果和HiveSQL的UDF不一致

因为Spark是线程不安全的,所以如果UDF使用了非线程安全的操作,那么就会导致不可预测行为,Hive是每个UDF在单独的JVM里执行,就会好很多。

2024-10-08 13:56:02 1071

原创 SparkSQL与Hive查询不一致问题

SparkSQL与Hive查询不一致问题

2024-10-08 11:30:23 780

原创 数据治理-1. 数据集成-总体方案

数据集成是广义上数据治理的第一步,只有成功的接入数据,才能谈下一步的治理,资产,应用,共享等。后面会针对集成的各种方式做实际操作的展开,一边记录,一边总结各种集成方式的具体遇到的问题和优缺点。

2023-02-08 15:01:21 407

原创 Virtualbox主机与虚拟机相互访问

Virtualbox主机与虚拟机相互访问

2022-10-14 11:10:20 4162

原创 scala-tools mavent 打包出错原因

scala-tools 打包出错问题

2022-07-24 14:35:24 541

原创 【springboot maven 本地包依赖】

springboot maven 本地包依赖一. 注册到本地maven(推荐)优势: 可以二次依赖,重复使用劣势: 同时使用这个工程的人,需要重复在本地安装这个包首先在本地安装本地依赖包(只需要安装jar包,如果有resource包,不需要重复安装)mvn install:install-file -Dfile=e:/openplatform-web%2Fopen-sdk-java-2.0.2.jar -DgroupId=com.seewo -DartifactId=open-sdk-jav

2022-03-21 19:56:04 1070

原创 日志采集展示系统grafana+loki

文章目录背景一、Grafana部署1.1 上传安装包1.2 登录grafana平台二、Loki部署2.1 修改配置文件2.1.1 修改loki中心节点配置文件2.1.2 修改loki采集日志节点promtail配置文件2.2 部署2.2.1 部署中心loki2.2.2 部署loki采集日志节点promtail(多节点)三、配置grafana连接loki3.1 按照图中点击 Configuration -> Data Sources3.2 添加loki数据源3.3 配置loki中心节点ip端口,save

2021-05-18 20:51:48 3074 1

原创 conda install 安装很慢并且Solving environment: failed with initial frozen solve.

问题描述:首先 安装 Anaconda,用来使用python3这时候需要自己的安装一些依赖包使用 conda install 安装很慢并且 报错 “Solving environment: failed with initial frozen solve.”原因分析:1.可能是由于未使用国内的镜像源,所以非常的慢2.可能由于conda是比较低的版本,需要更新解决方案:针对上诉两个肯能的原因有解决方案如下更改国内源vim ~/.condarcchannels: - https

2021-05-11 11:17:03 4705 1

原创 页面nginx 404报错

项目场景:上线了一个软件,并且使用nginx去代理,希望通过域名去访问问题描述:页面报如下错误原因分析:404 Not Found 是找不到这个服务的地址,并且有nginx的标识,说明 nginx 代理的ip端口配置的有问题解决方案:找到nginx 部署的那台服务器如果不知道 nginx 部署在哪个路径下可以执行如下指令ps -ef |grep nginx得到如下结果,可以看到nginx的部署路径然后进入nginx的配置路径,找到对应的 nginx.conf 文件找到web

2021-05-08 14:37:51 8937 1

原创 VirtualBox设置静态ip和主机访问

文章目录背景1.硬件环境2.网络连接种类一、网络选择二、实施步骤1.新增 仅主机(Host-Only)网络2.配置虚拟机网络3.虚拟机内部设置4. 防火墙设置总结背景1.硬件环境使用的虚拟机是VirtualBox,因为这个占用资源更少安装的机器是Centos7 版本主机的ip不是固定的,自动分配2.网络连接种类由下图可以看到,网络有很多种选择,但是我们常用的是这是三个网络地址转换(NAT)、桥接网卡、仅主机(Host-Only)网络为什么有这些网络选择呢,因为每种网络有着自己的特点,

2021-04-08 14:03:11 3166 1

原创 平台软件部署总结

平台软件部署总结文章目录平台软件部署总结背景问题及建议解决方法1) 软件整体上层设计缺失解决建议2) 数据库初始化脚本多库报错和不可重复执行背景最近接到了一个工作,就是有一个庞大的系统,大概约有16个大的功能项,每一个功能项都有而很多不同部署包,有jar,有zip,有war 等等,依赖有JDK,mysql,nginx,还有一些其他的通用依赖包,复杂且繁杂,部署的很痛苦部署过程也遇到了一个个的问题,都记录一下问题及建议解决方法1) 软件整体上层设计缺失我部署的这些软件包,都是很多团队,经过4-5

2021-03-31 20:35:39 744

Sublime Text 3.zip

Sublime Text 3.zip

2021-05-05

PBIDesktopSetup_x64.exe

PBIDesktopSetup_x64.exe

2021-04-09

Navicat Premium 15.zip

Navicat Preminm 15 好用的数据库连接客户端,可以连接多中常用数据库,mysql,mongodb等

2021-01-15

scala-intellij-bin-2020.2.5.zip

IntelliJ IDEA scala插件,给网络不好的下载本地直接安装

2021-01-15

windows安装spark2软件包.zip

windows安装spark2软件包 包括: 1.spark-2.3.0-bin-hadoop2.7.tgz spark的压缩包 2.scala-2.11.8.zip scala的压缩包 3.hadoop-2.7.1.tar.gz 基础hadoop包 4.apache-maven-3.6.3-bin.zip maven压缩包 5.winutils-master.zip 解决windows下spark的问题(可以不用)

2021-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除