- 博客(48)
- 收藏
- 关注
原创 Python 和 Pandas 版本的对应关系
在使用 Python 和 Pandas 时,确保它们的版本兼容是非常重要的。以下是 Python 和 Pandas 版本的对应关系,帮助你选择合适的版本。
2024-12-27 15:13:20
4768
1
原创 存储过程实现多个分类不同计算规则得到对应的分类、月份和款号
该存储过程 PRO_MON_MDCODE 实现多个分类不同计算规则得到对应的分类、月份和款号。
2024-12-26 18:01:56
271
原创 创建一个存储过程来生成一个包含所有月份名称的列表可以通过PL/SQL实现
在Oracle数据库中,创建一个存储过程来生成一个包含所有月份名称的列表可以通过PL/SQL实现。特定于 Oracle 数据库,因为它使用了 Oracle 特有的 PL/SQL 语法和函数。不同的数据库系统有不同的存储过程定义和执行方式,以及不同的内置函数和游标操作。请注意,每个数据库系统都有自己独特的函数和方法来处理日期和字符串,因此你需要根据你所使用的数据库系统调整代码。
2024-12-16 17:01:40
244
原创 在数据库中动态生成一个行转列(PIVOT)表的 PL/SQL 代码
用于在数据库中动态生成一个行转列(PIVOT)表的 PL/SQL 代码。它使用了 Oracle 的。操作来转换行数据为列数据,并使用动态 SQL 来执行这些操作。执行上述构建的动态 SQL 语句,从而重命名列。执行上述构建的动态 SQL 语句,从而创建。列,聚合结果为逗号分隔的字符串,并按。(2)构建一个动态 SQL 语句。c. 构建一个动态 SQL 语句。聚合(通常是求和)得到的。排序,结果存储在变量。的最大值,存储在变量。(包含)迭代,对每个。
2024-11-26 16:54:17
303
原创 HIVE 模拟事务管理代码示例
-生成中间表前,判断控制表状态是否为1,如果不是1,置为0,否则保持为1;生成中间表后,生成控制表状态为1,覆盖完DWD后,生成控制表状态为2。2、中间表、DWD覆盖环节例子,只增加控制表的判断逻辑,旧的影响分区判断条件与此无关。1-已生成中间表,但未覆盖DWD 2-已覆盖DWD。--没有生成中间表时,不会走DWD覆盖环节。--控制表初始化值必输为0。1、控制表生成SQL例子。
2024-09-14 12:17:38
272
原创 Hive查询计划
通过explain authorization可以知道当前SQL访问的数据来源(INPUTS)和数据输出(OUTPUTS),以及当前Hive的访问用户 (CURRENT_USER)和操作(OPERATION)。input_partitions:描述一段SQL依赖的数据来源表分区,里面存储的是分区名的列表,如果整段SQL包含的所有表都是非分区表,则显示为空。Statistics:表统计信息,包含分组聚合之后的数据条数,数据大小等。Statistics:表统计信息,包含表中数据条数,数据大小等;
2024-09-10 11:35:18
573
1
原创 HIVE数据仓库——拉链表
拉链表记录一个事物从开始,一直到当前状态的所有变化的信息。可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。
2023-06-21 08:56:21
1046
转载 关于oracle数据库中出现ORA-00907: 缺失右括号的解决方法(转)
在开发过程中使用oracle数据库,在程序中进行查询数据时遇到了“ORA-00907: 缺失右括号”的问题,但是如果直接把sql语句直接在数据库或SQL中执行时,却又能够正常查询,为了解决这个问题,查找了一些资料,对各种导致出现“缺失右括号”的情况进行了整理总结。此种情况跟1中描绘的有些类似,首先在in(子查询)用法使用order by 会报错,其次,子查询里用order by,纯属多此一举,子查询的目的,只是找出合适的数据。在查询时引发缺失右括号错误的原因大多数在于查询语句中有关于日期的转化、过滤。
2023-06-15 19:17:38
1732
原创 Apache Spark 的基本概念重点和在大数据分析中的应用
Apache Spark 是一个用于分布式数据处理的开源计算框架,它可以处理大规模数据集并提供了快速的数据处理速度。Spark 最初是由加州大学伯克利分校的AMPLab开发的,目的是为了解决 Hadoop MapReduce 在迭代计算、交互式数据挖掘以及实时数据流处理等方面的性能瓶颈。
2023-06-06 14:36:10
336
原创 数仓|Hive性能调优(二)
这样比起上面调整mapper数时,又会多出两个参数,分别是mapred.min.split.size.per.node和mapred.min.split.size.per.rack,含义是单节点和单机架上的最小split大小。需要更改Hive的输入文件格式,即参数hive.input.format,默认值是org.apache.hadoop.hive.ql.io.HiveInputFormat,我们改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。
2023-06-05 19:53:25
169
原创 Flume框架应用
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
2022-03-11 10:46:36
288
原创 Flume快速入门&&企业开发案例
选项参数:-t或--tcp:显示TCP传输协议的连线状况;-u或--udp:显示UDP传输协议的连线状况-n或--numeric:直接使用ip地址,而不通过域名服务器-l或--listening:显示监控中的服务器的Socket-p或--programs:显示正在使用Socket的程序识别码(PID)和程序名称
2022-02-15 02:00:00
207
原创 分区——合理设置Map及Reduce数、复杂文件增加Map数
合理设置Map及Reduce数如果MapReduce数据量过少,则单个的处理数据量过大;如果MapReduce数据量过多,则抢资源。
2022-02-11 21:37:45
2405
原创 Hive查询操作(一)
查询数据仓库是典型的查多写少,这个是根据HDFS本身的特点来的。HDFS本身不支持随机修改,只支持追加。所以Hive读多改少,写就写一遍,重点在查询。查询的用处在方方面面都有,比如insert等,都需要查询。https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法: [WITH CommonTableExpression (, CommonTableExp...
2022-01-22 22:16:04
3981
原创 DDL数据定义
DDL数据定义、创建数据库、查询数据库、修改数据库、删除数据库、创建表、分区表、修改表 、删除表 、Hive数据呈现方式、错误解决等
2022-01-21 10:00:00
459
原创 Hive安装、Hive基本操作与常见属性配置
Hive安装地址、Hive安装部署 、MySQL安装 、Hive元数据配置到MySQL、Hive基本操作、将本地文件导入Hive案例 、HiveJDBC访问、Hive常用交互命令、Hive其他命令操作、Hive常见属性配置
2022-01-19 09:30:00
1504
原创 Zookeeper实战(开发重点)
Zookeeper实战(开发重点)、分布式安装部署、客户端命令行操作、API应用、箭头服务器节点动态上下线案例(扩展)
2022-01-15 09:00:00
1208
原创 Zookeeper入门
Zookeeper入门,Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。
2022-01-13 16:44:44
742
原创 wordcount经典案例的实现
新建maven项目,导入项目所需要的依赖;Mapper阶段代码编写;Reduce阶段代码编写,定义Driver类,;描述 Job;使用maven将项目打包成jar包;MapReduce作业运行
2022-01-12 06:15:00
1240
原创 MapReduce分布式计算框架
MapReduce分布式计算框架、wordcount经典案例介绍、MapReduce进程介绍、MapReduce编程规范等
2022-01-11 14:40:03
1977
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人