
pySpark
hao难懂
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
04RDD五大特性
RDD是基础: Resilient Distributed Dataset 弹性分布式数据集 五大特性: A List of partitions 分区列表 A function for computing each split 每个分区都有一个计算函数 A list of dependencies on other RDDs 记住依赖关系 Optional...原创 2019-11-06 20:47:57 · 183 阅读 · 0 评论 -
03读取文件并排序
#!/usr/bin/python # -*- coding:UTF-8 -*- # 文件名:ReadFile.py __author__ = "haohao" # 读取文件并排序 from pyspark import SparkConf from pyspark import SparkContext conf = SparkConf().setAppName("hao").setMas...原创 2019-10-29 20:18:15 · 186 阅读 · 0 评论 -
02词频统计
from pyspark import SparkContext from pyspark import SparkConf # 创建Spark对应此应用程序的配置;必须要设置setAppName名称(可随意写),没有则报错; # 必须要设置运行模式,local{*] 是我们的本地测试用的模式,zhilocal[*]代表所有可用的线程并行执行, # local等价于local[1] conf =...原创 2019-10-29 20:17:41 · 177 阅读 · 0 评论 -
01环境准备
1.创建一个pycharm项目,在里面创建py文件 2.然后在Run中选择“Edit Configurations”,选中Templates下面的python。 3.点击Environment variables空格后的小图标, 不要改变里面的PYTHONUNBUFFERED, 单击+,name和value分别写入“PYTHONPATH”和“H:\spark-1.6.0-bin-hadoop2....原创 2019-10-24 19:46:24 · 131 阅读 · 0 评论