- 博客(147)
- 资源 (7)
- 收藏
- 关注

原创 图数据库Neo4j详解
Neo4j是一个开源的、 无Shcema的、 基于java开发的图形数据库,它将结构化数据存储在图中而不是表中。本文覆盖图数据库和Neo4j概要、Neo4j安装部署、Neo4j实践操作、Neo4j Admin、Neo4j API开发。具体包含图数据库概念、图论起源、、节点-关系图、图数据库分类、图数据库应用场景、图数据库与关系型数据库区别、图数据库优势、Neo4j特点、优势、数据模型、Neo4j安装部署、Cypher应用、图数据库函数、图数据库操作、索引和约束管理、Java和Python API开发等。
2023-11-10 15:56:23
3013

原创 一篇搞定,Kettle详细教程
本文主要以Kettle概述、Kettle开发环境部署、mac m1 kettle安装、linux kettle安装、kettle集群安装部署、kettle输入、kettle输出、kettle转换、kettle批量加载、kettle流程、kettle脚本、kettle的Java代码案例、kettle查询控件、kettle连接控件、kettle映射控件、kettle统计控件、kettle应用、kettle整合大数据、kettle streaming控件、kettle作业、kettle调度、kettle变量和参数
2023-09-21 11:54:19
7834
7

原创 DolphinScheduler 3.1.4详细教程
大数据目前比较火爆的任务调度平台DolphinScheduler,一篇详细讲解DolphinScheduler的教程。DolphinScheduler 3.1.4详细教程共计分为四章:第一章 DolphinScheduler介绍第二章 DolphinScheduler系统架构第三章 DolphinScheduler安装部署,包含DolphinScheduler单机版快速安装部署和DolphinScheduler集群安装部署第四章 DolphinScheduler应用,包含工作流定义、任务、数据质量等
2023-05-06 11:11:22
14101
25

原创 超火的ChatGPT技术原理与我们关系
众所周知,最近,由美国人工智能公司OpenAI推出的大语言模型ChatGPT风靡全球,国内热度也持续高涨,IT界更是疯狂。伴随而来的是各种ChatGPT的声音,身边很多普通人的声音则是将ChatGPT看着是能与人类对话机器或者能替换很多语言相关工作者,当然包括咱们部分程序员哈。我想,他的出现,或许是人工智能发展历史的一个转折点。ChatGPT与IT关系,与Java、大数据、人工智能的相关关系呢?
2023-03-23 15:40:26
5365
原创 DataX 3.0详解
本文详细讲解DataX的核心概念,包括DataX架构、核心架构、执行流程、MySQL切分Task策略、DataX安装部署和DataX的Stream、Text、HDFS和Hive读写案例
2025-03-27 13:37:34
838
原创 SparkSQL运行架构及原理
本文覆盖SparkSQL运行架构原理、Catalyst优化器简介、SparkSQL运行架构、SparkSQL解析Core的底层原理、SparkSQL执行计划查看等.
2024-12-19 14:09:15
594
原创 SparkSQL案例
SparkSQL案例,Python版本的SparkSQL操作实践,包含案例描述、案例数据和案例需求分析及SQL实现,整合Hive.
2024-12-17 11:48:42
409
原创 SparkSQL与Hive的整合
本文包含Spark On Hive、Hive On Spark、SparkSQL命令行、SparkSQL分布式查询的介绍和实践操作.
2024-12-11 13:46:45
1302
原创 SparkSQL编程实践
本文涵盖SparkSQL编程模型介绍、SparkSQL编程、Python的第三方库安装、SparkSQL程序结构、SparkSQL执行模式、SparkSQL数据加载、DSL数据处理风格和SparkSQL数据落地等内容.
2024-12-09 14:36:05
945
原创 Kafka-Manager安装及操作
Kafka manager是一款常用的Kafka集kafka管理、操作和监控的工具,本文覆盖Kafka-manager的介绍、安装部署和操作等内容.
2024-09-22 18:10:40
7168
6
原创 SparkSQL概述
SparkSQL,就是Spark生态体系中的构建在SparkCore基础之上的一个基于SQL的计算模块。SparkSQL的前身不叫SparkSQL,而是叫做Shark。最开始的时候底层代码优化、SQL的解析、执行引擎等等完全基于Hive,总是Shark的执行速度要比Hive高出一个数量级,但是Hive的发展制约了Shark。因此在15年中旬的时候,Shark的负责人将Shark项目结束掉,重新独立出来的一个项目,就是SparkSQL。本文涵盖SparkSQL介绍、发展历程、特点和总结等内容。
2024-05-09 16:20:45
430
原创 Python版Spark core详解
Apache Spark 是一种快速、通用、可扩展的大数据分析引擎。项目使用Scala语言进行编写,并提供了包括Scala、Python、Java在内的多种语言的编程接口。本文内容翔实,包括Spark环境部署、Spark介绍、Spark集群安装部署、Spark作业提交、SparkCore编程、RDD介绍、RDD创建、RDD基本操作、RDD案例、SparkCore高级编程、RDD依赖、RDD任务划分、RDD持久化机制、累加器、广播变量和Shuffle原理等。
2024-05-09 16:14:50
721
原创 Flink CDC详解
CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。Flink CDC本质是一组数据源连接器,使用更改数据捕获(CDC)从不同的数据库中摄取更改。Apache Flink®的CDC连接器集成了Debezium作为捕获数据更改的引擎,所以它可以充分利用Debezium的能力。
2024-04-24 15:19:20
15864
2
原创 Spark java.io.NotSerializableException
Spark core将数据写入MySQL,出现Caused by: java.io.NotSerializableException: com.mysql.cj.jdbc.DatabaseMetaData异常,解决数据反序列化问题,本文将使用两种方案解决其具体问题。
2024-04-24 14:50:48
768
3
原创 IDEA安装教程
IDEA是一款常用的Java、Scala和其它代码编辑器,是很多程序员必不可少的工具之一。本文主要介绍IDEA的下载、安装、配置和基于IDEA的Maven类型项目创建
2023-11-23 17:11:46
535
原创 OpenVPN客户端安装测试
OpenVPN有很多客户端,本文采用windows系统的OpenVPN Connect 3.4.2 (64-bit) 客户端进行安装和测试。本文涵盖openvpn connect下载、安装、配置和测试等。
2023-10-10 11:21:42
15204
4
原创 最全Kettle详解
Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration-Pentaho数据集成,Kettle 本意是水壶的意思,表达了数据流的含义。本文主要全面讲解Kettle,包含kettle的发展历程、kettle简介、kettle相关俗语、kettle系统架构(kettle设计与组成)、kettle的功能模块、kettle的执行流程、kettle商业版和社区版的区别、etl工具对比等内容,内容较多,具体参考正文。
2023-09-19 18:09:21
2959
原创 Day14 03-Shell函数定义及应用
Shell函数代表着一个或一组命令的集合,表示一个功能模块,常用于模块化编程,通常能提升重复利用和简化复杂程序。Shell函数同样有无参函数、带参函数、无返回值函数和带返回值函数,具体参考正文的函数语法及应用。
2023-09-18 17:16:38
278
原创 day14 02-Shell控制条件与循环详解
和很多编程语言一样,Shell也有常用的if 、if...else... 、if...elif...else、for 、while等常用语法。只是它们的语法和别的一些编程语言稍微不一样,比如:if必须使用fi结束,而循环使用do ... done包裹循环逻辑等,具体的语法参考正文内容。
2023-09-18 16:38:24
126
原创 Day14 01-Shell脚本编程详解
Shell是命令解释器(command interpreter),是Unix操作系统的用户接口,程序从用户接口得到输入信息,shell将用户程序及其输入翻译成操作系统内核(kernel)能够识别的指令,并且操作系统内核执行完将返回的输出通过shell再呈现给用户。Shell也是一门编程语言,即Shell脚本。在此脚本中,我们可以使用一些编程语法来进行一些任务操作。 如:Shell变量、Shell类型、Shell数组和Shell编程规范等语法。 在Shell脚本里,必须指定一种shell命令行的解释器。
2023-08-18 19:05:23
375
原创 Day13 04-Linux的虚拟机克隆-scp命令-ssh免登录-crontab定时器及时间同步操作
Linux在多节点的情况下,可以有很多常用的操作,比如:经常会垮节点传输文件、数据等;经常会使用ssh进行远程连接并操作服务器;也经常使用其自带的crontab定时器来将某些任务进行定时触发等;同时多节点需要尽可能保障其时间同步,很多场景下,如果时间不同步,相关服务不能正常运行,大家对此也需要引起重视。没有多个服务器的情况下,本文采用linux的虚拟机克隆来进行模拟这样的多节点环境。
2023-08-14 18:36:44
595
原创 Day13 03-大家都会的4种Linux软件安装与管理
学大数据,linux平台的软件熟练安装是非常有必要的。大家都知道,Windows下安装软件时,只需用鼠标双击软件的安装程序,或者用Zip等解压缩软件解压缩即可安装;而在Linux下安装软件难度高于Windows的软件安装。下面我就详细讲解Linux下如何安装软件。1、二进制程序的安装(最简单安装) 2、rpm程序安装(后缀名为*.rpm) 3、基于yum源安装 4、源码编译安装。本文主要涵盖:linux软件安装介绍、优缺点、JDK、MySQL、Python3等安装,阿里云yum源替换,yum源制作等等。
2023-08-04 17:23:11
201
原创 Doris安装部署入门
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
2023-07-30 00:44:40
6258
原创 Canal安装部署与测试
canal,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份。本文主要包含Canal概述、Canal的安装部署和Canal与Kafka的集成测试及相关注意事项。一起动手实践吧!
2023-07-25 18:22:33
715
1
原创 Day13 02-Linux常用命令汇总
CentOS操作系统有非常的多的命令,我相信几乎没有任何人能把所有命令记住,所以常用命令非常重要,要熟悉,多用,多练,多总结等;同时,命令的帮助文档或者帮助命令的使用也非常重要。本文覆盖命令格式、帮助命令、文件处理命令、查看命令、find、grep、which、whereis、磁盘操作命令、打包压缩、解压缩命令、date命令、系统关机命令、linux快捷键命令、网络操作命令、进程管理命令、用户管理命令、文件权限命令、sudo权限配置等。
2023-07-18 15:04:06
176
原创 Day13 01-Linux介绍与安装教程
Linux是一种自由和开放源码的操作系统,存在着许多不同的Linux发行版本,但它们都使用了Linux内核。本文主要包含Linux的介绍、Linux的两大阵营、CentOS社区版本介绍、VMWare 和 Parallels Desktop安装、vmware、pd介绍、centos目录介绍、虚拟机网络链接方式、nat网络连接、桥接网络连接、仅主机网络连接、远程连接工具安装和应用等。
2023-07-18 14:45:48
338
原创 DataEase安装与教程,人人都会的大数据可视化与BI工具!!!
开源可视化:Metabase、redash、superset、d3js、grafana和dataease等商业可视化:finebi、powerbi、tableau、quickbi、datav、sugger、永洪等自研可视化:java web(python api) + h5 + echarts(highcharts)等DataEase 是开源的人人都会的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。本文覆盖DataEase介绍、docker安装、数据源、数据集和地图等
2023-07-07 18:18:05
12562
9
原创 Python之最 “全-新-深-细“ 教程!!!
本文详细、全面讲解最新python相关知识,适合于期望从事python编程和python大数据小伙伴。内容涵盖9章,66节,100余小节,9章节分别为:Python环境搭建、Python基础语法、Python流程控制、Python函数使用、Python数据容器、Python面向对象、Python系统模块、Python文件操作和Python操作数据库。具体细节内容包含:Python安装与解释器、PyCharm安装与使用、数据类型及转换、分支与循环、Python函数详解、匿名函数、装饰器、闭包、数据集合等等等。
2023-07-05 10:15:55
256
原创 Docker-Dockerfile-DockerCompose的那些事
Docker 最初是 dotCloud 公司创始人Solomon Hykes 在法国期间发起的一个公司内部项目。到了2013年,公司资金链断裂,不得不倒闭,于是将公司内的核心技术对外开源,核心技术就是Docker。本文详细讲解Docker、Docker file 和docker compose三方面内容,docker包含docker安装、仓库、镜像、容器、数据卷映射、操作;dockerfile包括定义、文件格式、内容和镜像制作命令等。docker compose主要是docker compose安装应用。
2023-07-03 10:35:32
1205
原创 Day12 Python操作MySQL详解
我们在使用到python进行一些业务操作的时候,经常性的要与数据库进行交互。可能要读取到数据库的表中的数据,也可能需要将一些数据写入到表中,完成数据库的数据更新的操作。此时就需要使用python与数据库进行交互了。python有着非常强大的库,为python丰富了各种各样的功能,其中就包括了对数据库的操作。Python操作数据库包含操作介绍、数据库 基本操作、SQL注入问题、事务支持、Python操作数据库模块、数据库操作封装等。
2023-07-03 10:11:38
272
原创 Day11 Python文件操作详解
os是OperateSystem的简称,即操作系统。使用os模块,可以实现对操作系统的文件系统进行简单的操作。os.path模块中包含的更多都是文件、文件夹属性获取的操作。本文包含Python文件操作相关内容,具体有:os模块、os.path模块、python读写写文、python拷贝文件、python with文件操作、python pickle库等内容。
2023-07-03 10:07:49
141
原创 Day10 Python系统模块
所谓的“模块”,其实就是指的py文件!模块之间是可以互相调用的!在Python中,模块分为三种:- 系统模块:Python环境安装完成之后自带的py文件或者包- 自定义模块:就是我们自己写的py文件- 第三方模块:其他人写好的,上传到 [pypi.org](https://pypi.org) 上面,可以下载下来使用的模块。本文覆盖内容丰富,包含Python的模块和包、可迭代类型、Python时间模块、数学模块、随机数模块、Python hashlib加密模块、base64模块和正则模块等。
2023-06-27 10:39:26
172
原创 Day09 Python面向对象和异常详解
在现实生活中,我们与父母之间存在着“继承”的关系。在Python中,也存在着“继承”的思想,来提高代码的复用性、代码的拓展性。程序中的继承,是类与类之间的特征和行为的一种赠予和获取的关系。一个类可以将自己的属性和行为赠予其他的类,一个类也可以从其他的类中获取到他们的属性和方法。本文章主要覆盖Python的面向对象基础、Python面向对象进阶和异常处理,具体包含:面向对象与面向过程、类与对象、类的设计与实例化、构造方法、魔术方法、类与类关系、封装、继承、重载、动态绑定、异常处理、异常语法和异常抛出等核心内
2023-06-26 17:34:49
254
原创 Day08 Python数据结构(数据容器)详解
Python中的数据结构:一种可以容纳多份数据的数据类型,容纳的每一份数据称之为1个元素,每一个元素,可以是任意类型的数据,如字符串、数字、布尔等。数据结构根据特点的不同如:是否支持重复元素、是否可以修改、是否有序等。数据结构分为5类分别是:字符串(str)、列表(list)、元组(tuple)、集合(set)、字典(dict)。本文包含:Python数据容器类型介绍、数据结构运算符、Python字符串str、字符串索引与切片、Python的列表list、元组tuple、集合set、字典dict等等。
2023-06-16 12:03:20
296
1
原创 Day07 Python函数详解
如果在开发Python程序时,需要某块代码多次,但是为了提高编写的效率以及代码的重用,所以把具有独立功能的代码块组织为一个小模块,这就是函数即函数是组织好的,可重复使用的,用来实现特定功能的代码段,就像使用过的`print()`是Python的内资函数【提前写好,可以重复使用,实现将内容输出到控制台的特定功能的代码段】。本文覆盖Python函数介绍、Python函数的定义与使用、Python函数参数、Python函数返回值、参数、函数嵌套调用、函数的递归、Python函数多返回值、匿名函数、装饰器和闭包。
2023-06-15 09:09:29
664
原创 Day06 Python入门必知必会
你懂的,Python世界上最好的编程语言!!!Python是一门高级编程语言,随着大数据、人工智能等学科兴起,Python编程语言逐渐获得市场青睐,也被各中小学和大学纳入授课范围。本课程非常详细讲解Python的基础、window安装python、mac安装python、ppycharm安装与使用、python解释器、python的基础语法、python注释、字面量、变量、python数据类型、数据类型转换、标识符与表达式、运算符、输入输出、python流程控制、match-case、for和while
2023-06-14 14:13:37
370
原创 Day05 05-MySQL实战练习及答案
大数据开发、数据仓库开发、数据分析师或者数据治理等大数据相关岗位,其实更多的时候都是在对SQL进行拿捏,所以建议大家有时间一定一定要把夯实SQL基础,下面的练习题及答案仅供大家参考,大家可以再去衍生想想,如何去查看SQL的执行计划?如何提升SQL查询性能?MySQL的实战练习主要目标是提升初学者对MySQL的语法、语感、手法和手感,增强大家对SQL语句的热爱度。题目及答案仅供参考,可以按照自己的合理的理解进行作答,建议大家有时间可以多练习其它更多的SQL场景。
2023-06-12 16:49:21
979
mongoDB X86 X64 及安装使用教程
2015-03-20
spring Spring MVC Hibernate 4.x 整合案例
2015-01-16
DolphinScheduler 3.1.1的Hive UDF报错
2023-08-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人