- 博客(38)
- 收藏
- 关注
原创 Spark离线开发指南(详细版)
API:2.1.2–获取分区数API:API:sparkcontext.textFile(参数1,参数2)参数1:必填,文件路径支持本地,支持HDFS,也支持一些比如S3协议参数2:可选,表示最小分区数量注意:参数2话语权不足,spark有自己的判断,在它的允许的范围内,参数2才有效果,超出spark允许的范围,参数2就失效读取本地文件:参数2的用法:读取HDFS文件:wholeTextFileAPI:返回结果为二元组的形式展示, 前一个值是文件路径, 后一个值为文件内容分类:转换算子:动
2024-06-25 17:05:19
1037
原创 hive优化
桶可以提高join 的效率,桶可以保证相同key 的数据都分在了一个桶里,这个时候我们关联的时候不需要去扫描整个表的数据,只需要扫描对应桶里的数据(因为key 相同的一定在一个桶里),smb的设计是为了解决大表和大表之间的join的,核心思想就是大表化成小表,然后map side join 解决是典型的分而治之的思想。我们知道Hive的底层要转MR任务来执行, 而MR程序的计算速度是非常慢的, 如果执行的是简单的HiveSQL, 没必要转MR程序, 直接执行即可.
2023-06-21 17:36:35
1186
原创 MapReduce基础编程(自定义序列化、自定义分区、自定义排序、自定义分组)
MapReduce基础编程(自定义序列化、自定义分区、自定义排序、自定义分组)
2022-11-18 20:43:16
1486
原创 java基础学习--多线程、线程安全、线程进阶、线程池、生产者消费者模式
java基础学习--多线程、线程安全、线程进阶、线程池、生产者消费者模式
2022-10-17 18:15:08
1407
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人