
全链路数据仓库
文章平均质量分 87
打造数据仓库为核心,衍生数据仓库周边,全面覆盖:Python、MySQL、Linux、Hadoop、Hive、Hue、Spark、数据同步、ETL、数据可视化、任务调度、数据仓库、阿里云ODPS和项目实战等。内容丰富,轻松拿捏....
大数据东哥(Aidon)
这个作者很懒,什么都没留下…
展开
-
day14 04-AWK和Sed工具初识
拓展awk和sed命令,旨在更加方便和快捷的编写shell脚本。原创 2023-11-15 09:29:35 · 180 阅读 · 0 评论 -
Day14 03-Shell函数定义及应用
Shell函数代表着一个或一组命令的集合,表示一个功能模块,常用于模块化编程,通常能提升重复利用和简化复杂程序。Shell函数同样有无参函数、带参函数、无返回值函数和带返回值函数,具体参考正文的函数语法及应用。原创 2023-09-18 17:16:38 · 278 阅读 · 0 评论 -
day14 02-Shell控制条件与循环详解
和很多编程语言一样,Shell也有常用的if 、if...else... 、if...elif...else、for 、while等常用语法。只是它们的语法和别的一些编程语言稍微不一样,比如:if必须使用fi结束,而循环使用do ... done包裹循环逻辑等,具体的语法参考正文内容。原创 2023-09-18 16:38:24 · 126 阅读 · 0 评论 -
Day14 01-Shell脚本编程详解
Shell是命令解释器(command interpreter),是Unix操作系统的用户接口,程序从用户接口得到输入信息,shell将用户程序及其输入翻译成操作系统内核(kernel)能够识别的指令,并且操作系统内核执行完将返回的输出通过shell再呈现给用户。Shell也是一门编程语言,即Shell脚本。在此脚本中,我们可以使用一些编程语法来进行一些任务操作。 如:Shell变量、Shell类型、Shell数组和Shell编程规范等语法。 在Shell脚本里,必须指定一种shell命令行的解释器。原创 2023-08-18 19:05:23 · 375 阅读 · 0 评论 -
Day13 04-Linux的虚拟机克隆-scp命令-ssh免登录-crontab定时器及时间同步操作
Linux在多节点的情况下,可以有很多常用的操作,比如:经常会垮节点传输文件、数据等;经常会使用ssh进行远程连接并操作服务器;也经常使用其自带的crontab定时器来将某些任务进行定时触发等;同时多节点需要尽可能保障其时间同步,很多场景下,如果时间不同步,相关服务不能正常运行,大家对此也需要引起重视。没有多个服务器的情况下,本文采用linux的虚拟机克隆来进行模拟这样的多节点环境。原创 2023-08-14 18:36:44 · 595 阅读 · 0 评论 -
Day13 03-大家都会的4种Linux软件安装与管理
学大数据,linux平台的软件熟练安装是非常有必要的。大家都知道,Windows下安装软件时,只需用鼠标双击软件的安装程序,或者用Zip等解压缩软件解压缩即可安装;而在Linux下安装软件难度高于Windows的软件安装。下面我就详细讲解Linux下如何安装软件。1、二进制程序的安装(最简单安装) 2、rpm程序安装(后缀名为*.rpm) 3、基于yum源安装 4、源码编译安装。本文主要涵盖:linux软件安装介绍、优缺点、JDK、MySQL、Python3等安装,阿里云yum源替换,yum源制作等等。原创 2023-08-04 17:23:11 · 201 阅读 · 0 评论 -
Day13 02-Linux常用命令汇总
CentOS操作系统有非常的多的命令,我相信几乎没有任何人能把所有命令记住,所以常用命令非常重要,要熟悉,多用,多练,多总结等;同时,命令的帮助文档或者帮助命令的使用也非常重要。本文覆盖命令格式、帮助命令、文件处理命令、查看命令、find、grep、which、whereis、磁盘操作命令、打包压缩、解压缩命令、date命令、系统关机命令、linux快捷键命令、网络操作命令、进程管理命令、用户管理命令、文件权限命令、sudo权限配置等。原创 2023-07-18 15:04:06 · 177 阅读 · 0 评论 -
Day13 01-Linux介绍与安装教程
Linux是一种自由和开放源码的操作系统,存在着许多不同的Linux发行版本,但它们都使用了Linux内核。本文主要包含Linux的介绍、Linux的两大阵营、CentOS社区版本介绍、VMWare 和 Parallels Desktop安装、vmware、pd介绍、centos目录介绍、虚拟机网络链接方式、nat网络连接、桥接网络连接、仅主机网络连接、远程连接工具安装和应用等。原创 2023-07-18 14:45:48 · 338 阅读 · 0 评论 -
Day12 Python操作MySQL详解
我们在使用到python进行一些业务操作的时候,经常性的要与数据库进行交互。可能要读取到数据库的表中的数据,也可能需要将一些数据写入到表中,完成数据库的数据更新的操作。此时就需要使用python与数据库进行交互了。python有着非常强大的库,为python丰富了各种各样的功能,其中就包括了对数据库的操作。Python操作数据库包含操作介绍、数据库 基本操作、SQL注入问题、事务支持、Python操作数据库模块、数据库操作封装等。原创 2023-07-03 10:11:38 · 272 阅读 · 0 评论 -
Day11 Python文件操作详解
os是OperateSystem的简称,即操作系统。使用os模块,可以实现对操作系统的文件系统进行简单的操作。os.path模块中包含的更多都是文件、文件夹属性获取的操作。本文包含Python文件操作相关内容,具体有:os模块、os.path模块、python读写写文、python拷贝文件、python with文件操作、python pickle库等内容。原创 2023-07-03 10:07:49 · 141 阅读 · 0 评论 -
Day10 Python系统模块
所谓的“模块”,其实就是指的py文件!模块之间是可以互相调用的!在Python中,模块分为三种:- 系统模块:Python环境安装完成之后自带的py文件或者包- 自定义模块:就是我们自己写的py文件- 第三方模块:其他人写好的,上传到 [pypi.org](https://pypi.org) 上面,可以下载下来使用的模块。本文覆盖内容丰富,包含Python的模块和包、可迭代类型、Python时间模块、数学模块、随机数模块、Python hashlib加密模块、base64模块和正则模块等。原创 2023-06-27 10:39:26 · 172 阅读 · 0 评论 -
Day09 Python面向对象和异常详解
在现实生活中,我们与父母之间存在着“继承”的关系。在Python中,也存在着“继承”的思想,来提高代码的复用性、代码的拓展性。程序中的继承,是类与类之间的特征和行为的一种赠予和获取的关系。一个类可以将自己的属性和行为赠予其他的类,一个类也可以从其他的类中获取到他们的属性和方法。本文章主要覆盖Python的面向对象基础、Python面向对象进阶和异常处理,具体包含:面向对象与面向过程、类与对象、类的设计与实例化、构造方法、魔术方法、类与类关系、封装、继承、重载、动态绑定、异常处理、异常语法和异常抛出等核心内原创 2023-06-26 17:34:49 · 254 阅读 · 0 评论 -
Day08 Python数据结构(数据容器)详解
Python中的数据结构:一种可以容纳多份数据的数据类型,容纳的每一份数据称之为1个元素,每一个元素,可以是任意类型的数据,如字符串、数字、布尔等。数据结构根据特点的不同如:是否支持重复元素、是否可以修改、是否有序等。数据结构分为5类分别是:字符串(str)、列表(list)、元组(tuple)、集合(set)、字典(dict)。本文包含:Python数据容器类型介绍、数据结构运算符、Python字符串str、字符串索引与切片、Python的列表list、元组tuple、集合set、字典dict等等。原创 2023-06-16 12:03:20 · 296 阅读 · 1 评论 -
Day07 Python函数详解
如果在开发Python程序时,需要某块代码多次,但是为了提高编写的效率以及代码的重用,所以把具有独立功能的代码块组织为一个小模块,这就是函数即函数是组织好的,可重复使用的,用来实现特定功能的代码段,就像使用过的`print()`是Python的内资函数【提前写好,可以重复使用,实现将内容输出到控制台的特定功能的代码段】。本文覆盖Python函数介绍、Python函数的定义与使用、Python函数参数、Python函数返回值、参数、函数嵌套调用、函数的递归、Python函数多返回值、匿名函数、装饰器和闭包。原创 2023-06-15 09:09:29 · 664 阅读 · 0 评论 -
Day06 Python入门必知必会
你懂的,Python世界上最好的编程语言!!!Python是一门高级编程语言,随着大数据、人工智能等学科兴起,Python编程语言逐渐获得市场青睐,也被各中小学和大学纳入授课范围。本课程非常详细讲解Python的基础、window安装python、mac安装python、ppycharm安装与使用、python解释器、python的基础语法、python注释、字面量、变量、python数据类型、数据类型转换、标识符与表达式、运算符、输入输出、python流程控制、match-case、for和while原创 2023-06-14 14:13:37 · 370 阅读 · 0 评论 -
Day05 05-MySQL实战练习及答案
大数据开发、数据仓库开发、数据分析师或者数据治理等大数据相关岗位,其实更多的时候都是在对SQL进行拿捏,所以建议大家有时间一定一定要把夯实SQL基础,下面的练习题及答案仅供大家参考,大家可以再去衍生想想,如何去查看SQL的执行计划?如何提升SQL查询性能?MySQL的实战练习主要目标是提升初学者对MySQL的语法、语感、手法和手感,增强大家对SQL语句的热爱度。题目及答案仅供参考,可以按照自己的合理的理解进行作答,建议大家有时间可以多练习其它更多的SQL场景。原创 2023-06-12 16:49:21 · 979 阅读 · 0 评论 -
Day05 04-MySQL分库分表介绍
MySQL数据库常见的优化方案中,有一种方案就是“分库分表”。那么什么叫“分库分表”呢?分库:将一个数据库拆分成若干数据库,其中的表分布到不同的数据库中。分表:将一个表拆分成若干的小表,其中的数据分布在多张表中。一个大的数据库可以拆分成为小个数据库,一个大的表也可以拆分成为若干个小的表。拆分之后得到的小的数据库、小的表中的数据量肯定会变少,这样就可以在一定程度上提升查询时候的效率。原创 2023-06-12 16:22:12 · 1029 阅读 · 0 评论 -
Day05 03-MySQL主从-主主原理与搭建详解
在实际的生产环境中,数据量可能会非常庞大,这样单机服务的MySQL在使用的时候,性能会受到影响影响。并且单机服务的MySQL的数据安全性也会受到影响。因此在生产环境中,我们通常搭建MySQL的集群架构,来提高庞大数据量的基础上的高性能读写的需求。在常见的集群架构中,最常见的就是主从架构(Master-Slaves)MySQL的主从架构,又有一些其他的名称:主从复制、主主复制和集群等。本文详细讲解:MySQL集群架构介绍、主从原理、主从复制搭建、主主原理和主主搭建等。原创 2023-06-12 16:15:30 · 2334 阅读 · 0 评论 -
Day05 02-MySQL bin-log日志原理与实践详解
MySQL的bin-log日志,可以说是MySQL的日志中最重要的日志。其中记录的不仅仅是DML的操作,DDL的操作也会记录在其中。bin-log日志文件中记录的都是一些事件Event,其中第一个Event表示当前日志文件的起点和格式,最后一个Event表示下一个日志的起点和格式。其中,二进制日志中记录的是DML的操作,也就是增、删、改数据的日志信息,称为binary-log,也就是我们要说的bin-log日志。bin-log文件可用于MySQL主重或集群搭建,也可以用于MySQL数据实时同步等应用场景!原创 2023-06-12 15:58:19 · 1169 阅读 · 0 评论 -
Day05 01-MySQL数据库索引详讲
MySQL索引是查询数据库性能提升法宝,如果对MySQL索引运用灵活到位,必将对你的查询会起到很好效果,本文就针对MySQL数据库索引进行详细讲解,内容覆盖索引介绍、索引优缺点、索引的创建规则、索引的分类、索引的测试和最左匹配等内容。原创 2023-06-12 15:47:13 · 1198 阅读 · 0 评论 -
Day04 04-MySQL的事务(TCL)
本文主要覆盖:MySQL的事务介绍、事务特性、事务和并发事务等内容。原创 2023-05-30 22:19:49 · 1199 阅读 · 0 评论 -
Day04 03-MySQL数据库的DCL(用户|权限|视图)
本文涉及MySQL的DCL语句,其主要用来做用户的创建、管理,权限的授予、撤销等操作的。创建、删除用户的操作,必须要使用root用户才可以完成!原创 2023-05-30 22:14:45 · 531 阅读 · 0 评论 -
Day04 02-数据库的备份与恢复
数据库手动复制、mysqldump命令进行备份和工具备份与恢复。原创 2023-05-30 22:11:14 · 103 阅读 · 0 评论 -
Day04 01-MySQL存储过程入门
MySQL从1.5版本开始支持存储过程(PROCEDURE)。存储过程将复杂的业务实现(增删改查、变量、数组、分支、循环、方法调用、事务提交、回滚等等)搬到数据库实现,作为大数据开发者,需要能了解存储过程,如果能掌握甚至可以写一些存储过程则更佳。本文覆盖存储过程定义、存储过程语法、存储过程变量、局部变量、用户变量、会话变量、全局变脸和参数等内容。原创 2023-05-26 11:07:00 · 981 阅读 · 0 评论 -
Day03 03-MySQL函数大全与详解
函数在编程中总是存在,存在于各种编程语言中,当然也包括SQL,作为一名当下或者未来优秀的SQL Boy,如果你不熟悉一些常用函数,严格来说,就不算优秀的SQL Boy了。所以,如果作为初学者,本章节很重要,因为后续的大数据很多数仓工具都提供类SQL,也任然有很多函数,但大致函数都很像,所以,前面的学好,后续的就信手拈来。本章节是MySQL中很重要的章节,全面覆盖高频的MySQL功能性函数、日期函数、字符串函数、数学函数、自定义函数、窗口函数和排名函数等。关于MySQL函数的具体细节,大家参考本文正式内容。原创 2023-05-25 12:15:56 · 911 阅读 · 0 评论 -
Day03 02-MySQL多表查询详解
MySQL的join连接查询、子查询和合并查询详细语法、应用、案例和性能等,轻松搞定join有的时候,我们的业务需求的数据并不只是在一张表中,而是分布在两张或两张以上的表中,而这些表中通常都会存在着“有关系”的字段。那么此时的查询操作,我们需要从多张表中查询数据,我们称之为多表关联查询。或者叫做连接查询。有的时候,当一个查询语句A所需要的数据,不是直观在表中体现,而是由另外一个查询语句B查询出来的结果,那么查询语句A就是主查询语句,查询语句B就是子查询语句。这种查询我们称之为高级关联查询,也叫做子查询。原创 2023-05-24 09:47:45 · 367 阅读 · 0 评论 -
Day03 01-MySQL数据完整性详解
我们已经知道了如何创建数据库、如何创建表、如何在表中进行数据的插入操作。但是在实际工作中,我们需要考虑插入到表中的数据是否是合乎逻辑的。因此,有时候我们需要在插入数据的时候,对数据进行校验,以保证插入表中的数据没有逻辑的错误。这就是数据的完整性。而为了保证数据的完整性,我们往往需要借助一些约束来实现。数据的完整性约束可以分为三类: 实体完整性、域完整性和引用完整性。MySQL数据完整性非常重要,它能保障MySQL库-表中的数据质量,会影响后续大数据的数据仓库等项目的实施,所以大家一定要看得懂(重视)。原创 2023-05-23 09:27:05 · 459 阅读 · 0 评论 -
Day02 MySQL的DDL、DML和DQL详细操作
MySQL的详细操作,CURD操作,比如MySQL的DDL、DML、DQL、DCL和TCL等操作,MySQL具体常见的三类操作分别如下:DDL(Data Definition Language):数据定义语言,用来定义数据库对象(数据库、表、列)DML(Data Manipulation Language):数据操作语言,用于定义数据库记录(数据)DQL(Data Query Language):数据查询语言,用于查询记录(数据)原创 2023-05-21 12:11:49 · 621 阅读 · 0 评论 -
Day01 关系型数据MySQL简介与多平台安装配置
在大数据的课程中,我们需要处理的数据来自不同的渠道,其中有一个很重要的渠道就是关系型数据库中存储的数据。在企业中,会把业务数据存储在关系型数据库中,一般以MySQL居多。另外,我们在后续的课程中需要学习Hive、SparkSQL、Flink SQL等内容,而这些内容共同的基础就是SQL语法。所以,我们需要借助MySQL学习SQL语法的使用,熟练的掌握基础的增删改查的操作与多表的查询操作,为后续的课程学习打好扎实的基础。本文涉及超详细的MySQL简介、Windows和Mac M1平台的MySQL安装配置等。原创 2023-05-19 11:18:18 · 503 阅读 · 0 评论