- 博客(10)
- 收藏
- 关注
原创 spark读取hive表异常,处理WARN HiveExternalCatalog: The table schema given by Hive metastore
spark读取hive表异常:WARN HiveExternalCatalog: The table schema given by Hive metastore...We have to fall back to the table schema from Hive metastore which is not case preserving.
2022-04-05 23:44:53
6610
原创 Hive表字段类型转换错误解决:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
Hive表字段类型转换错误解决——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table. The following columns have types incompatible with the existing columns in their respective positions :
2022-04-05 22:37:42
21324
原创 Spark Schema、Hive和Python的数据类型关系,以及Pyspark数据类型详解
Spark Schema、Hive和Python的数据类型关系,以及Pyspark数据类型详解
2022-04-04 22:05:17
6520
1
原创 Spark内存资源分配——spark.executor.memory等参数的设置方法
Spark内存资源分配——spark.executor.memory等参数的设置方法
2022-01-19 14:28:32
21891
2
原创 Spark报错解决:org.apache.spark.SparkException: Task failed while writing rows.at org.apache.spark.sql.ex
sparksql执行过程中写入文件的过程报错org.apache.spark.sql.execution.datasources.FileFormatWriter$.write
2021-12-20 17:14:19
6332
原创 SQL笔试题:时间相关题目总结
从知乎上看的一系列题,感觉题主的思路很有启发,但是发现他的代码有点问题,所以自己再记录一下有错误的点。1.求连续时间问题系列原文地址:SQL笔试题(1):求连续时间问题(必考难题)1.1 求每个用户一周内最大连续活跃天数这里原答案用的是date_sub函数,但是该函数必须指定时间相减的单位,按题主这样写是错的。要么完整填写(interval n type),要么用subDate函数。当然题主的思路非常正确,其实相当于只要是连续登陆的,那么运算出来的日期结果就是一样的。1.2 求截至当前已连续签到
2021-03-23 10:29:38
512
原创 Mysql对大数据做操作时服务自动停止,原来是因为innodb buffer pool太小导致
1.问题描述最近在对一个超过1g的数据做update时,执行语句后,发现过了很久会报错:2003 - Can’t connect to MySQL server on ‘localhost’(10061)同时数据并没有实现修改。看了很多关于2003错误的文章,都没有解决问题。最后我通过查错误日志排查了问题,发现是由于mysql数据库的innodb buffer pool的相关参数设置错误导致的。2.查找错误日志2.1 重启服务当出现这个错误的时候,Mysql服务已经关闭了。这时需要重启服务。这里
2021-03-14 20:42:12
1212
原创 【Mysql面试题】对条件判断函数应用聚合查询
1. 问题描述已知以下表结构,请用一条SQL语句查询出:安装日期在2018-05-01(含)至2018-05-30(含)期间、且最后登录日期在2018-08-05(含)之后的用户总人数,及在满足前述条件的用户中,2018-08-05(含)之后有过付费的总人数、付费的总次数与付费的总金额。输出结果包括:用户总人数、付费总人数、付费总次数、付费总金额表结构:table_a(每个用户只有一条记录):uid,install_time(安装日期),last_login_time(最后登录日期)table_b
2021-03-14 10:45:45
216
原创 [python][统计学入门]scipy.stats.norm函数探究
1. 问题背景在学习AB_test的过程中,有计算样本量的环节。其中针对不同样本分布有如下计算公式:其中授课老师在计算z1-alpha(一类错误临界点值)和z1-beta(二类错误临界点值)这两个的时候,使用的公式为stats.norm.isf(alpha,loc=0,scale=1)我发现为什么求的是1-alpha,而计算的时候代入的参数是alpha呢?所以就想探究一下stats.norm下的各个方法所代表的函数究竟是什么意思。2.stats.norm下的常用方法rvs:随机变量(就是从
2021-03-13 11:50:00
5928
2
原创 数据分析知识——统计学学习笔记(拉勾数据分析训练营)
模块1 统计学基本概念1 测量尺度人文社科中的分类尺度1定类尺度功能:分类作用,比如性别。英文:Norminal2定序尺度功能:分类、排序作用,比如喜欢的艺人、年级。英文:Ordinal3定距尺度功能:分类、排序、加减,比如温度。英文:Scale4定比尺度功能:分类、排序、加减、乘除,比如年龄、体重等。有绝对零点。英文:Scale实际应用说明分类说法:定类与定序合称分类变量,定距与定比合称连续变量。Tableau就是这样分类:分类-维度,连续-度量。描述统计方法:分类变量:只能
2021-02-16 12:14:22
10520
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人