- 博客(132)
- 收藏
- 关注
原创 常用Python数据分析开源库:Numpy、Pandas、Matplotlib、Seaborn、Sklearn介绍
常用Python数据分析开源库:Numpy、Pandas、Matplotlib、Seaborn、Sklearn介绍
2024-10-17 16:49:10
1411
原创 Hadoop生态圈三大组件:HDFS的读写流程、MapReduce计算流程、Yarn资源调度
Hadoop生态圈三大组件:HDFS的读写流程、MapReduce计算流程、Yarn资源调度
2024-10-15 17:18:12
1697
原创 Spark内置函数:字符串、日期和时间函数、聚合函数、数值函数、条件判断函数、窗口函数
Spark内置函数:字符串、日期和时间函数、聚合函数、数值函数、条件判断函数、窗口函数
2024-10-15 11:38:13
1294
原创 RDD优化:缓存和checkpoint机制、数据共享(广播变量、累加器)、RDD的依赖关系、shuffle过程、并行度说明
RDD优化:缓存和checkpoint机制、数据共享(广播变量、累加器)、RDD的依赖关系、shuffle过程、并行度说明
2024-10-11 21:15:53
1608
原创 Spark常用RDD算子:transformation转换算子以及action触发算子
transformation 转换算子对RDD数据进行转化得到新的RDD,定义了一个线程任务。常见:map、filter、flatMap、reduceByKey、groupByKey、sortByKeyaction 执行算子触发计算任务,让计算任务进行执行,得到结果。触发线程执行的。常见:foreach、first、count、reduce、saveAsTextFile、collect、take。
2024-10-10 19:45:00
1783
2
原创 一篇文章带你了解数据处理方式(单机数据处理、集群数据处理)、分布式计算框架、Spark的分布式计算、多任务以及进程和线程的区别
数据处理方式(单机数据处理、集群数据处理)、分布式计算框架、Spark的分布式计算、多任务以及进程和线程的区别
2024-10-09 08:47:17
1051
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人