
大数据
dkjkls
简书主页:https://www.jianshu.com/u/1c23f6c45d0e
展开
-
Spark中集合类型ArrayType/MapType与explode方法的使用
版权声明:本文为博主原创文章,未经博主允许不得转载。背景:需要对DataFrame中部分字段聚合,再通过udf对聚合的字段列表进行处理,返回列表,再把返回的列表字段列转行,如下:group_idfeature_1feature_2feature_311.111.211.3111.121.221.3222.112.212.3122...原创 2019-03-25 00:23:26 · 6942 阅读 · 0 评论 -
Hive表字段类型修改
1.分区表的复制1.1 使用动态分区插入复制表A 创建一张和原表一样表结构的复制表B 通过插入语句(insert overwrite),使用动态分区把数据导入复制表SET hive.exec.dynamic.partition.mode=nonstrict;CREATE TABLE table_copy like table_original;INSERT overwrite TABL...原创 2019-05-20 00:45:16 · 8642 阅读 · 0 评论 -
SparkSQL UDF 返回类型不能包含NUMPY类型
版权声明:本文为博主原创文章,未经博主允许不得转载。Spark版本: 2.1.1问题:SparkSQL UDF 返回类型包含NUMPY类型,报错:PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)如下方代码所示,定义的udf返回类型为包含dict的list,在u...原创 2019-06-02 19:32:02 · 1146 阅读 · 0 评论 -
Pandas DataFrame 新增操作最佳实践
版权声明:本文为博主原创文章,未经博主允许不得转载。1 背景项目中需对已产生的 Pandas DataFrame 进行新增操作,想到的方法有四种:直接使用 Pandas 的 append 方法使用 Pandas 的 loc 方法先转换为dict,再通过dict合并使用list封装,再转换为DataFrame2 性能验证验证代码如下:# encoding: utf-8"...原创 2019-06-17 01:13:37 · 1227 阅读 · 0 评论 -
批量插入更新 MySQL 服务优化
1 原执行步骤从Hive中拉数据产出数据文件主进程读文件,按子进程数切分根据待插入集合,使用 ON DUPLICATE KEY UPDATE 批量更新或插入 table1(假设supply_id,order_id为联合唯一索引) 和 table2INSERT INTO table1(supply_id,order_id,num,end_time,status)VALUES(504...原创 2019-09-29 19:43:48 · 627 阅读 · 1 评论