- 博客(19)
- 收藏
- 关注
原创 pyspark和spark交互
2、spark2.0之后,通过创建sparksession。1、spark2.0之前,通过创建sparkconf。
2024-11-26 14:26:38
101
原创 hive数据倾斜
2.3 大表关联大表,热点值导致长尾,先将热点值取出,对主表按照热点值key分为热点数据和非热点数据,分别处理完之后再合并。多个 Distinct 同时出现在 SQL 代码中时(如对 uid、order_id、shop_id等均需去重技术时),数据会被分发多次,导致节点效率低。2.1 大表关联小表,使用map join:小表做从表,加载到内存,广播分发到各个节点;map读数据时,数据文件大小分布不均匀,导致部分maptask处理数量过大。2.2 大表关联大表,空值导致长尾,将空值处理成随机值;
2024-11-24 14:34:57
180
原创 hive map端和reduce端task个数
这个参数表示执行前进行小文件合并。hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1G)1.1 map数量决定因素:input的文件数量,hdfs数据块默认128M,默认128M的数据文件对应一个map。hive.exec.reducers.max(每个任务最大的reduce数,默认为999)
2024-11-24 14:05:28
242
原创 python udf函数
udf函数放到指定目录下服务器测试py脚本catdatatesttxt登录hive注册udf函数addfilehive使用udf函数查询。
2024-11-16 11:11:18
139
原创 Django运行项目时提示报错:django.core.exceptions.ImproperlyConfigured: Requested setting INSTALLED_APPS, but s
解决:添加环境变量DJANGO_SETTINGS_MODULE=netshop.settings。原因:pycharm没有设置项目的环境变量。
2024-10-06 10:26:40
1926
原创 dataX同步到mysql少数据
原因:1、使用sqoop抽数据到hive,数据中存在分隔符导致错位;(例如:PDD: 能良家居生活专营店)2、ods表使用dataX导数据到mysql,错位数据会导不进去。解决:sqoop抽数据的时候处理数据,将tab字符处理掉。
2024-09-26 10:24:13
186
原创 HDFS:text文件使用dataX同步数据到mysql报错OOM
解决:新建orc表,把ods表数据查询插入到新表,HDFS上面会按258M分成多个文件块儿,然后使用DATAX同步到mysql。原因:ods表是使用text文件格式,未压缩,HDFS文件大小5G;使用DATAX同步时OOM;
2024-09-25 22:10:57
138
原创 python和pyspark数据处理的区别
1、python的dataframe,是单机数据集,只适用于处理少数据量;2、pyspark的RDD,是分布式弹性数据集,适用于处理大数据量。
2024-09-15 09:27:30
156
原创 pthon map,apply和applymap的区别
1、map是serise对象的方法;apply是dataframe和serise对象的方法;applymap是dataframe对象的方法;2、map应用于对象中的每个元素;apply应用于对象中行或列中的元素;applymap应用于对象中的每个元素。
2024-09-07 19:14:12
122
原创 python:‘SeriesGroupBy‘ object has no attribute ‘to_excel‘
把data1转出dataframe,pd.DataFrame(group)data1不是dataframe。
2024-09-06 18:06:19
260
原创 hive on spark报错:Failed to create Spark client for Spark session
解决办法:增加重试次数。
2024-09-06 16:13:11
301
原创 sqoop采集数据到hive
@sqoop采集数据到hive1、oracle抽取数据到hive本身是map,可指定map的个数;可增量或全量抽;通过shell脚本可批量抽取应用场景:将表从关系型数据库抽取到hive或hdfs分隔符问题导致数据量变多,参考https://blog.youkuaiyun.com/qq_38250124/article/details/84331037null值问题:hive官方文档关于null值的描...
2019-10-31 11:11:24
1659
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人