l1336944916-优快云博客

原创 pyspark和spark交互

2、spark2.0之后,通过创建sparksession。1、spark2.0之前,通过创建sparkconf。

2024-11-26 14:26:38 101

原创查看集群配置

-查看磁盘df -h--查看内存free -h--查看cpulscpu。

2024-11-26 14:22:28 408

2.3 大表关联大表，热点值导致长尾，先将热点值取出，对主表按照热点值key分为热点数据和非热点数据，分别处理完之后再合并。多个 Distinct 同时出现在 SQL 代码中时（如对 uid、order_id、shop_id等均需去重技术时），数据会被分发多次，导致节点效率低。2.1 大表关联小表，使用map join：小表做从表，加载到内存，广播分发到各个节点；map读数据时，数据文件大小分布不均匀，导致部分maptask处理数量过大。2.2 大表关联大表，空值导致长尾，将空值处理成随机值；

2024-11-24 14:34:57 180

原创 hive map端和reduce端task个数

这个参数表示执行前进行小文件合并。hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1G）1.1 map数量决定因素：input的文件数量，hdfs数据块默认128M，默认128M的数据文件对应一个map。hive.exec.reducers.max（每个任务最大的reduce数，默认为999）

2024-11-24 14:05:28 242

原创 python udf函数

udf函数放到指定目录下服务器测试py脚本catdatatesttxt登录hive注册udf函数addfilehive使用udf函数查询。

2024-11-16 11:11:18 139

原创 Django运行项目时提示报错：django.core.exceptions.ImproperlyConfigured: Requested setting INSTALLED_APPS, but s

解决：添加环境变量DJANGO_SETTINGS_MODULE=netshop.settings。原因：pycharm没有设置项目的环境变量。

2024-10-06 10:26:40 1926

原创 dataX replace模式增量写入数据到mysql

MYsql要有unique key，datax根据unique key字段来更新数据。

2024-09-27 15:41:34 859

原创 dataX，hive同步到mysql，字段顺序不一致

调整hive表的index编号，和mysql字段顺序保持一致。

2024-09-26 11:17:57 216

原创使用雪花算法UDF函数自动生成唯一id，有重复

原因：使用udf函数时，有join导致id不唯一。解决：使用该UDF函数时，禁止使用join。

2024-09-26 10:28:57 300

原创 dataX同步到mysql少数据

原因：1、使用sqoop抽数据到hive，数据中存在分隔符导致错位；（例如：PDD: 能良家居生活专营店）2、ods表使用dataX导数据到mysql，错位数据会导不进去。解决：sqoop抽数据的时候处理数据，将tab字符处理掉。

2024-09-26 10:24:13 186

原创 HDFS：text文件使用dataX同步数据到mysql报错OOM

解决：新建orc表，把ods表数据查询插入到新表，HDFS上面会按258M分成多个文件块儿，然后使用DATAX同步到mysql。原因：ods表是使用text文件格式，未压缩，HDFS文件大小5G；使用DATAX同步时OOM；

2024-09-25 22:10:57 138

原创 python和pyspark数据处理的区别

1、python的dataframe，是单机数据集，只适用于处理少数据量；2、pyspark的RDD，是分布式弹性数据集，适用于处理大数据量。

2024-09-15 09:27:30 156

原创 python发送ecxel文件到企微群

指定消息类型=file。1、上传到企微，获取media_id；

2024-09-10 18:34:15 317

原创 pthon map,apply和applymap的区别

1、map是serise对象的方法；apply是dataframe和serise对象的方法；applymap是dataframe对象的方法；2、map应用于对象中的每个元素；apply应用于对象中行或列中的元素；applymap应用于对象中的每个元素。

2024-09-07 19:14:12 122

原创 python dataframe合并报错

2024-09-06 18:08:21 134

原创 python:‘SeriesGroupBy‘ object has no attribute ‘to_excel‘

把data1转出dataframe，pd.DataFrame(group)data1不是dataframe。

2024-09-06 18:06:19 260

原创 hive on spark报错：Failed to create Spark client for Spark session

解决办法：增加重试次数。

2024-09-06 16:13:11 301

原创 hive创建udf函数

hue执行ADD JAR /tmp/zgj/fenxiao1.jar;

2024-09-05 15:45:13 151 1

原创 sqoop采集数据到hive

@sqoop采集数据到hive1、oracle抽取数据到hive本身是map,可指定map的个数；可增量或全量抽；通过shell脚本可批量抽取应用场景：将表从关系型数据库抽取到hive或hdfs分隔符问题导致数据量变多，参考https://blog.youkuaiyun.com/qq_38250124/article/details/84331037null值问题：hive官方文档关于null值的描...

2019-10-31 11:11:24 1659

l1336944916的博客