Spark
文章平均质量分 79
Jayson19
每天不停奔跑才能留在原地
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL解决多种常规问题
使用环境 Win10、Python、PySpark库、Spark、JDK、Scala Spark SQL简介 Spark SQL是DataFrame的派生,是一种分布式SQL查询工具,设计目标是兼容Hive。Spark SQL近似关系型数据库,语句是由Projection(a1,a2…),Data Source(tableA),Filter(condition)组成,对应SQL查询过程的Result,Data Source,Operation。 问题与源码 启动jupyter notebook(也可以使用P原创 2020-07-08 16:25:16 · 1530 阅读 · 0 评论 -
Spark RDD解决多种常规问题
使用的环境 win10、Python、PySpark库、Spark、JDK、Scala Spark简介 Spark是专为大规模数据处理而设计的快速通用的计算引擎,拥有Hadoop MapReduce所具有的优点,但Spark不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 问题与源码 cmd命令窗口pyspark启动Spark,并在此环境下操作 数据源在百度网盘:数据源链接,提取码:vfn2 1、WordCount程序 使用data.txt 代码原创 2020-07-08 15:46:51 · 909 阅读 · 0 评论
分享