暴走的山芋-优快云博客

原创 spark读取hive表异常，处理WARN HiveExternalCatalog: The table schema given by Hive metastore

spark读取hive表异常：WARN HiveExternalCatalog: The table schema given by Hive metastore...We have to fall back to the table schema from Hive metastore which is not case preserving.

2022-04-05 23:44:53 6610

原创 Hive表字段类型转换错误解决：Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

Hive表字段类型转换错误解决——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table. The following columns have types incompatible with the existing columns in their respective positions :

2022-04-05 22:37:42 21324

原创 Spark Schema、Hive和Python的数据类型关系，以及Pyspark数据类型详解

Spark Schema、Hive和Python的数据类型关系，以及Pyspark数据类型详解

2022-04-04 22:05:17 6520 1

原创 Spark内存资源分配——spark.executor.memory等参数的设置方法

Spark内存资源分配——spark.executor.memory等参数的设置方法

2022-01-19 14:28:32 21891 2

原创 Spark报错解决：org.apache.spark.SparkException: Task failed while writing rows.at org.apache.spark.sql.ex

sparksql执行过程中写入文件的过程报错org.apache.spark.sql.execution.datasources.FileFormatWriter$.write

2021-12-20 17:14:19 6332

原创 SQL笔试题：时间相关题目总结

从知乎上看的一系列题，感觉题主的思路很有启发，但是发现他的代码有点问题，所以自己再记录一下有错误的点。1.求连续时间问题系列原文地址：SQL笔试题（1）：求连续时间问题（必考难题）1.1 求每个用户一周内最大连续活跃天数这里原答案用的是date_sub函数，但是该函数必须指定时间相减的单位，按题主这样写是错的。要么完整填写(interval n type)，要么用subDate函数。当然题主的思路非常正确，其实相当于只要是连续登陆的，那么运算出来的日期结果就是一样的。1.2 求截至当前已连续签到

2021-03-23 10:29:38 512

原创 Mysql对大数据做操作时服务自动停止，原来是因为innodb buffer pool太小导致

1.问题描述最近在对一个超过1g的数据做update时，执行语句后，发现过了很久会报错：2003 - Can’t connect to MySQL server on ‘localhost’(10061)同时数据并没有实现修改。看了很多关于2003错误的文章，都没有解决问题。最后我通过查错误日志排查了问题，发现是由于mysql数据库的innodb buffer pool的相关参数设置错误导致的。2.查找错误日志2.1 重启服务当出现这个错误的时候，Mysql服务已经关闭了。这时需要重启服务。这里

2021-03-14 20:42:12 1212

原创【Mysql面试题】对条件判断函数应用聚合查询

1. 问题描述已知以下表结构，请用一条SQL语句查询出：安装日期在2018-05-01（含）至2018-05-30（含）期间、且最后登录日期在2018-08-05（含）之后的用户总人数，及在满足前述条件的用户中，2018-08-05（含）之后有过付费的总人数、付费的总次数与付费的总金额。输出结果包括：用户总人数、付费总人数、付费总次数、付费总金额表结构：table_a（每个用户只有一条记录）：uid，install_time（安装日期），last_login_time（最后登录日期）table_b

2021-03-14 10:45:45 216

原创 [python][统计学入门]scipy.stats.norm函数探究

1. 问题背景在学习AB_test的过程中，有计算样本量的环节。其中针对不同样本分布有如下计算公式：其中授课老师在计算z1-alpha（一类错误临界点值）和z1-beta（二类错误临界点值）这两个的时候，使用的公式为stats.norm.isf(alpha,loc=0,scale=1)我发现为什么求的是1-alpha，而计算的时候代入的参数是alpha呢？所以就想探究一下stats.norm下的各个方法所代表的函数究竟是什么意思。2.stats.norm下的常用方法rvs:随机变量（就是从

2021-03-13 11:50:00 5928 2

原创数据分析知识——统计学学习笔记（拉勾数据分析训练营）

模块1 统计学基本概念1 测量尺度人文社科中的分类尺度1定类尺度功能：分类作用，比如性别。英文：Norminal2定序尺度功能：分类、排序作用，比如喜欢的艺人、年级。英文：Ordinal3定距尺度功能：分类、排序、加减，比如温度。英文：Scale4定比尺度功能：分类、排序、加减、乘除，比如年龄、体重等。有绝对零点。英文：Scale实际应用说明分类说法：定类与定序合称分类变量，定距与定比合称连续变量。Tableau就是这样分类：分类-维度，连续-度量。描述统计方法：分类变量：只能

2021-02-16 12:14:22 10520

qq_28658621的博客