自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 SQL笔记

fix朝零方向取整,如fix(-1.3)=-1;fix(1.3)=1;​floor:地板数,所以是取比它小的整数,即朝负无穷方向取整,如floor(-1.3)=-2;​ceil:天花板数,也就是取比它大的最小整数,即朝正无穷方向取整,如ceil(-1.3)=-1;​Round四舍五入到最近的整数,使用 Round() 函数,如 Round(number,2) ,其中参数2表示保留两位有效数字,四舍五入到两位小数例如 ROUND(3.141592653, 2) 结果为3.14;​参数。

2025-05-13 08:53:05 778

原创 新零售项目

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

2025-05-13 08:51:51 831

原创 教育项目笔记

apache 的发行版本的hadoop所存在优点和弊端:优点完全开源,更新速度很快大数据组件在部署过程中可以深刻了解其底层原理可以了解各个组件的依赖关系缺点部署过程极其复杂,超过20个节点的时候,手动部署已经超级累各个组件部署完成后,各个为政,没有统一化管理界面组件和组件之间的依赖关系很复杂,一环扣一环,部署过程心累各个组件之间没有统一的metric可视化界面,比如说hdfs总共占用的磁盘空间、IO、运行状况等。

2025-05-13 08:50:14 747

原创 hive优化相关问题

hive优化

2025-05-13 08:48:23 614

原创 DataX脚本test_province.json

同步HDFS上的/base_province目录下的数据到MySQL gmall数据库下的test_province表。hdfs至mysql。

2024-11-27 23:19:38 309

原创 DataX脚本base_province_sql.json

sql语句版配置"job": {],}],},},},},},},},},},],}],"speed": {

2024-11-27 23:18:51 408

原创 DataX脚本base_province_parameter.json脚本:传参

传参提交命令:在提交任务时使用-p"-Dparam=value"传入参数值。

2024-11-27 23:18:03 535

原创 DataX脚本base_province.json

参数hadoopConfig:HA的配置,目的动态切换。mysql至hdfs。

2024-11-27 23:16:55 362

原创 Flume脚本 kafka_to_hdfs_db.conf

# flume脚本位置位于 flume/job目录下。##物流项目kafka 采集至 hdfs脚本。##interceptors:拦截器。# 3 配置channels。# 2 配置source。# 4 配置 sinks。

2024-11-27 23:14:00 364

原创 Flume脚本file_to_kafka.conf

#电商项目 行为数据,日志文件采集至kafka脚本。##flume脚本位置位于 flume/job目录下。#配置channel。

2024-11-27 23:09:13 134

原创 13-网络爬虫

13 网络爬虫、爬取策略、http协议、爬虫京东案例

2022-11-25 15:55:52 567

原创 12-html&css&js

12 html、css、js

2022-11-25 15:55:00 286

原创 11-Maven

11 Maven、有骨架及无骨架工程、Maven的作用

2022-11-25 15:54:05 168

原创 10-JDBC

10 JDBC、Sql注入攻击、数据库连接池、C3P0Utils工具类、事务、JDBC操作事务_模拟转账

2022-11-25 15:53:30 1012

原创 09-反射,注解,XML

09 Junit、类加载器、反射、Properties、注解、XML

2022-11-24 03:52:01 151

原创 08-网络编程

08 网络编程:三大要素、IP地址、端口号、协议:UDP、TCP、TCP协议之文件上传、多线程版文件上传

2022-11-24 03:51:08 116

原创 07-多线程

07 多线程:多线程两种实现方式:继承Thread类,实现Runnable接口、线程同步、死锁、线程优先级、加入线程、守护线程、线程池、Lock锁、生产者和消费者

2022-11-24 03:50:36 94

原创 06-IO流

06 IO流:异常、File类、字节输出流、字节输入流、高效字节流、编解码问题、字符流、转换流、字符高效流、序列化流、Lambda表达式

2022-11-24 03:50:04 133

原创 05-集合

05 集合:Collection、List、列表迭代器、并发修改异常、增强for、常见的数据结构、ArrayList、LinkedList、Set、HashSet、LinkedHashSet、可变参数、Map、Collections工具类

2022-11-24 03:49:34 147

原创 04-API

04 API:Object类、String类、StringBuilder类、Array工具类、包装类、Date类、SimpleDateFormat类、Calendar类、内部类、匿名内部类

2022-11-24 03:47:30 111

原创 03-面向对象

03 面向对象:封装、继承、多态、方法重写、final、static、抽象类、接口、包,四大权限修饰符

2022-11-24 03:46:55 149

原创 02-数组,方法

02 数组、方法、方法重载

2022-11-24 03:46:15 95

原创 01-核心基础

01 常量、变量、数据类型、运算符、流程控制、循环语句

2022-11-24 03:45:26 324

原创 json_each()和json_tree()表值函数 用法

json_each()和json_tree()表值函数表值函数 json_each(X)和json_tree(X)遍历作为其第一个参数提供的JSON值,并为每个元素返回一行。json_each(X)函数仅遍历顶级数组或对象的直接子级,或者如果顶级元素是原始值,则仅遍历顶级元素本身。json_tree(X)函数以递归的方式遍历从顶层元素开始的JSON子结构。json_each(X,P)和json_tree(X,P)函数的工作原理和它们的单参数对应函数一样,只是它们将路径P所标识的元素视为顶层元素。jso

2022-03-04 17:48:13 1311

原创 HDFS_01

章节内容介绍1) HDFS的基本概念2) HDFS的架构说明 //理解 + 记忆3) HDFS中副本机制和机架感知原理 //理解 + 记忆4) HDFS的shell命令的操作: //基本命令(重点关注) + 高级命令5) HDFS的namenode和datanode的基本功能详细说明 //理解6) HDFS如何读写数据操作 //理解 + 记忆7) HDFS的元数据的辅助管理原理 //理解 + 记忆以下是具体的知识点HD

2022-02-21 22:50:32 932

原创 技术点记录

函数Hive的内置函数数学函数取整函数:round、floor、ceil、fixfix朝零方向取整,如fix(-1.3)=-1; fix(1.3)=1;floor:地板数,所以是取比它小的整数,即朝负无穷方向取整,如floor(-1.3)=-2; floor(1.3)=1; floor(-1.8)=-2; floor(1.8)=1。ceil:天花板数,也就是取比它大的最小整数,即朝正无穷方向取整,如ceil(-1.3)=-1; ceil(1.3)=2; ceil(-1.8)=-1; ceil

2022-02-21 22:17:25 1137

原创 Python基础_10_包和PEP8代码规范和案例

python基础10_包和PEP8代码规范和案例文章目录python基础10_包和PEP8代码规范和案例一、包1.1 包的作用1.2. 包的创建1.3. 使用 `import 包名.模块名` 能够导入包中的模块1.3 使用 `from 包名.模块名 import...`能够导入模块中的符号1.4 包中`__init__.py`文件的作用二、【了解】PEP8代码规范三、【应用】学⽣名片管理系统-面向对象版3.1. 需求分析-抽象学生类-增删改查3.2. 需求-文件处理需求3.3. 学生类设计3.4. 学生管

2022-01-26 23:19:36 458

原创 Python基础_9_异常和模块

python基础9_异常和模块文章目录python基础9_异常和模块一、异常1. 异常简介2. 异常的基本处理2.1 处理异常的目的2.2 捕获任意类型的异常2.3 捕获指定异常类型2.4 except捕获多个异常2.5 获取异常的信息描述2.6 捕获任意类型的异常2.7 异常中else2.8 try...finally...3. 异常的传递3.1 try嵌套3.2 函数嵌套4.【重点】抛出⾃定义异常二、模块1. 模块的使用1.1 模块介绍1.2 import导入模块1.3 from…import导入模块

2022-01-26 23:19:06 258

原创 Python基础_8_面向对象2

python基础8_面向对象2文章目录python基础8_面向对象2一、面向对象:继承、属性、方法1. 【记忆】 私有权限2. 继承2.1【记忆】继承介绍父类,也叫基类子类,也叫派生类定义一个父类定义一个子类,继承与Father子类创建对象3.【记忆】重写父类方法3.1【记忆】子类重写父类同名方法:3.2【记忆】子类调用父类同名方法:4. 【重点】多继承4.1【重点】多继承4.2【重点】查看继承顺序4.3【重点】子类调用父类同名方法:5.【知道】私有和继承6.【了解】多态7. 【记忆】属性7.1. 【记忆

2022-01-26 23:18:32 243

原创 Python基础_07_面向对象1

python基础7_面向对象1文章目录python基础7_面向对象1一、面向对象:类和对象、魔法方法1. 面向对象编程概述1.1【了解】面向过程和面向对象的区别1.2【知道】类和对象介绍2. 面向对象编程2.1【重点】定义类和方法2.2【重点】创建对象和调用方法2.3【重点】添加和使⽤属性2.5【记忆】self是什么2.5【理解】self的作用3. 魔法方法3.1【重点】`__init__`方法3.2【重点】`__str__`方法3.3【了解】`__del__`方法4.【应用】烤地瓜4.1. 普通版本4.

2022-01-26 23:18:05 291

原创 Python基础_6_文件

python基础6:文件文章目录python基础6:文件一、文件操作1.【知道】文件的作用2.【重点】文件基本操作2.1. 【记忆】文件自动关闭3.【重点】文件写操作4.【重点】文件读操作4.1. read指定读取内容:4.2. readlines读取所有行:4.3. readline一次读取一行:5.【记忆】打开文件详解5.1 【记忆】访问模式`r`,`w`,`a`的区别注意3: "r": 只读打开文件,不能写f.write("hello world") # io.UnsupportedOperati

2022-01-26 23:17:27 352

原创 Python基础_05_强化和进阶

#python基础5:进阶文章目录一、强化和进阶1.【重点】组包和拆包1.2. 【重点】组包和拆包的应用2. 【理解】引用2.2 【理解】引用指向改变2.3. 【记忆】函数传参是引用传递3.【记忆】可变类型与不可变类型4.【重点】range5.【重点】列表推导式6.【记忆】匿名函数7.【了解】递归函数8.【记忆】enumerate和del二、【应用】学生名片管理系统1.需求分析2.主页面逻辑:3.菜单实现4.添加学生信息:5.显示所有学生信息:6.查询某个学生:7. 修改某个学生8. 删除某个学生一、强

2022-01-26 23:16:18 398

原创 Python基础_04_函数

python基础4:函数文章目录python基础4:函数一、函数1. 函数的基本使用1.1【理解】函数的作用1.2【重点】函数的定义和调用1.3【理解】函数的执行过程1.4【记忆】函数的文档注释2. 函数的参数2.1【理解】函数参数的作用2.2【重点】函数参数的使用2.3【记忆】形参的作用域3. 函数的返回值3.1【理解】函数返回值的作用3.3【重点】通过return给函数设置返回值3.4【记忆】函数默认返回值3.5【重点】return中断函数4. 【重点】四种函数的类型5. 【理解】函数的嵌套调用6.

2022-01-26 23:03:21 380

原创 Python基础_03_容器类型

Python基础3:容器类型文章目录Python基础3:容器类型一、列表1.【重点】列表的定义和使用1.1. 【重点】列表的定义和使用1.2. 【重点】列表的嵌套定义和使用2.【知道】列表常用操作2.1. 【知道】增删操作2.2. 【知道】修改查询2.3. 【知道】排序3.【重点】列表的遍历3.1 【重点】通过for循环遍历3.2 【重点】if…in 和 for…in 的区别3.3 【重点】for…else的使用二、元组1.【重点】元组的定义和使用2.【知道】元组和列表的区别三、字典1.【重点】字典的定义

2022-01-26 23:02:47 1137

原创 Python基础_02_选择和循环语句

Python基础2:选择和循环语句文章目录Python基础2:选择和循环语句一、选择1.【了解】选择应用场景介绍2.【理解】 比较和逻辑运算符2.1 【理解】比较运算符2.2 【理解】逻辑运算符3.【重点】if语句的基本使用3.1 【重点】if语句的使用3.2【重点】if-else语句的使用3.3【记忆】通过if实现的三目运算符3.4【重点】if-elif-else语句的使用4.【难点】if的嵌套5.【应用】猜拳游戏5.1【应用】基础代码实现5.2【记忆】随机数的处理5.3【应用】完整代码二、循环1.【了

2022-01-26 23:02:10 688

原创 Python基础_01_变量和类型、输出输入、运算符

python基础第一天-基础知识文章目录python基础第一天-基础知识一、计算机基础知识1.【了解】硬件系统2.【了解】软件系统二、认识Python1.【了解】Python的介绍2. PyCharm的使用2.1【知道】PyCharm创建工程2.2【了解】PyCharm设置字体三、基础语法1. 第一个Python程序1.1【重点】第一个Python程序()1.2【重点】bug介绍1.3【重点】注释1.4【了解】PyCharm常用快捷键2. 变量、类型、标示符2.1【重点】变量2.2【重点】类型2.3【重点

2022-01-26 23:01:09 468

Hive 优化操作及其原理

内容概要:本文档详细介绍了Hive在实际应用中的优化操作及其原理,涵盖了从建表优化、查询优化到数据倾斜处理等多个方面。首先讨论了建表时的优化技巧,包括表类型的选择、分桶表的创建及数据加载、分区表的应用等。接着阐述了查询优化的方法,如启用压缩、MapJoin优化、索引机制(行组索引和Bloom Filter索引)、并行操作、小文件合并、矢量化查询等。此外,文档还深入探讨了数据倾斜问题的解决方案,包括使用MapJoin、Bucket MapJoin、SMB Join,以及通过combiner和多MR任务来分散压力。最后,文档提供了关于Hive配置参数的具体设置建议,以确保在大规模数据处理中提高性能。 适合人群:具备一定Hadoop生态体系基础,尤其是Hive使用经验的数据分析师、数据工程师和大数据开发人员。 使用场景及目标:①帮助用户在Hive中高效地创建和管理表格,特别是在处理大规模数据集时;②通过合理的查询优化配置,显著提升SQL查询的速度与效率;③解决因数据分布不均引起的数据倾斜问题,避免单个Reducer处理过多数据导致的整体性能下降;④指导用户根据实际情况调整Hive的各项配置参数,确保系统稳定性和最佳性能表现。 其他说明:本文档不仅提供理论知识,还结合实际案例展示了各种优化措施的效果对比,使读者能够更好地理解和应用这些技术。同时,文中提及的配置参数均为实际生产环境中常用的设置,对于提高Hive作业的执行效率有着重要的参考价值。阅读本文档时,建议读者结合自身业务需求和技术环境进行针对性实践,以便获得更好的优化效果。

2025-05-13

大数据java笔记待更新

大数据java笔记待更新

2024-11-27

Redis笔记Redis笔记Redis笔记Redis笔记Redis笔记Redis笔记Redis笔记

Redis笔记Redis笔记Redis笔记Redis笔记Redis笔记Redis笔记Redis笔记

2024-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除