
pySpark
hao难懂
这个作者很懒,什么都没留下…
展开
-
04RDD五大特性
RDD是基础:Resilient Distributed Dataset弹性分布式数据集五大特性:A List of partitions 分区列表 A function for computing each split 每个分区都有一个计算函数 A list of dependencies on other RDDs 记住依赖关系 Optional...原创 2019-11-06 20:47:57 · 176 阅读 · 0 评论 -
03读取文件并排序
#!/usr/bin/python# -*- coding:UTF-8 -*-# 文件名:ReadFile.py__author__ = "haohao"# 读取文件并排序from pyspark import SparkConffrom pyspark import SparkContextconf = SparkConf().setAppName("hao").setMas...原创 2019-10-29 20:18:15 · 184 阅读 · 0 评论 -
02词频统计
from pyspark import SparkContextfrom pyspark import SparkConf# 创建Spark对应此应用程序的配置;必须要设置setAppName名称(可随意写),没有则报错;# 必须要设置运行模式,local{*] 是我们的本地测试用的模式,zhilocal[*]代表所有可用的线程并行执行,# local等价于local[1]conf =...原创 2019-10-29 20:17:41 · 170 阅读 · 0 评论 -
01环境准备
1.创建一个pycharm项目,在里面创建py文件2.然后在Run中选择“Edit Configurations”,选中Templates下面的python。3.点击Environment variables空格后的小图标,不要改变里面的PYTHONUNBUFFERED,单击+,name和value分别写入“PYTHONPATH”和“H:\spark-1.6.0-bin-hadoop2....原创 2019-10-24 19:46:24 · 128 阅读 · 0 评论