分布式Spark笔记
对于分布式Spark的笔记
yu1069153913
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
10-使用pipeline和不使用pipeline来分别实现推荐系统 pyspark
首先不使用pipeline实现模型的训练 from pyspark.mllib.recommendation import Rating # Rating模块 from pyspark.mllib.recommendation import ALS # ALS模块 # 读取文件 u.data # 数据字段分别为:用户id,项目id,评分,日期,并以\t作为分隔符 data_path = '../测试数据/spark/ml-100k/u.data' raw_user_data = sc.text原创 2020-07-29 18:49:51 · 531 阅读 · 0 评论 -
09-独立程序求学生的平均成绩
问题: 编写独立应用程序实现求平均值问题 每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。下面是输入文件和输出文件的一个样例,供参考。 Algorithm成绩: 小明 92 小红 87 小新 82 小丽 90 Database成绩: 小明 95 小红 81 小新 89 小丽 85 Python成绩: 小明 82 小红 83 小新 94 小丽 91 平均成绩如下: (小红,83原创 2020-07-29 18:45:59 · 5120 阅读 · 0 评论 -
08-案例:学生与课程统计
1. 数据 下面这种数据结构,节选了几条数据: Aaron,OperatingSystem,100 Aaron,Python,50 Aaron,ComputerNetwork,30 Aaron,Software,94 Abbott,DataBase,18 Abbott,Python,82 Abbott,ComputerNetwork,76 Abel,Algorithm,30 Abel,DataStructure,38 Abel,OperatingSystem,38 Abel,ComputerNetwork,原创 2020-07-29 18:42:38 · 1175 阅读 · 0 评论 -
07-案例:销售图书
题目: 给定一组键值对(“spark”, 2)(“hadoop”, 6)(“hadoop”, 4)(“spark”, 6),键值对的key表示图书名称,value表示某天的图书销量,请计算每个键对应的平均值,也就是计算每种图书的每天平均销量 下面利用scala实现: 环境是在jupyter notebook中的运行,使用scala语法: 命令1: val rdd = sc.parallelize(Array(("spark", 2), ("hadoop", 6), ("hadoop", 4), ("spar原创 2020-07-29 18:31:20 · 431 阅读 · 0 评论 -
06-推荐引擎
在docker中安装numpy 命令:apk add py3-numpy 更改pyspark的python版本,根据02的描述 其他人提供的一种方法: 1.docker exec -it spark-master /bin/sh 2.echo http://mirrors.aliyun.com/alpine/v3.7/main/ >> /etc/apk/repositories #配置阿里镜像源 3.apk update原创 2020-07-29 18:26:23 · 258 阅读 · 4 评论 -
05-特征抽取:TF-IDF-pyspark实现
from pyspark.ml.feature import HashingTF, IDF, Tokenizer from pyspark.sql import SparkSession spark = SparkSession.builder.master("local").appName("Word Count333").getOrCreate() sentenceData = spark.createDataFrame([ (1, "I heard about Spark and I lov原创 2020-07-29 18:24:04 · 540 阅读 · 0 评论 -
03-更改pyspark的python版本
把pyspark的python解释器更改为python3 找到文件 spark-env.sh.template: docker exec -it spark-master bash cd spark/conf 注: 我的spark文件都放在docker中,所以命令对docker进行的操作 创建文件命令:touch x.txt 删除文件命令:rm x.txt 对spark-env.sh.template操作 复制并重命名文件 cp spark-env.sh.template spark-env.sh原创 2020-07-29 18:15:36 · 1342 阅读 · 0 评论 -
03-Spark MLib
构建一个机器学习流水线:以逻辑斯蒂回归为例 查找出所有包含“spark”的句子,即将包含spark的句子的标签设为1,没有spark的句子标签设备0 下面是完整代码,之后分步骤对代码进行解析 1. 需要使用SparkSession对象 Spark2.0以上的pyspark在启动时会自动创建一个名为spark的SparkSession对象 当需要手工创建时,SparkSession可以由其伴生对象的builder()方法创建出来 // python代码 from pyspark.sql import Spar原创 2020-07-29 17:35:02 · 463 阅读 · 0 评论 -
02- RDD编程基础
RDD创建 从文件系统中加载数据创建RDD spark采用**textFile()**方法来从文件系统中加载数据创建RDD 该方法吧文件的URI作为参数,这个URI可以是: 本地文件系统的地址 或者是分布式文件系统HDFS的地址 或者是Amazon S3的地址等等 (1)从本地文件系统加载数据创建RDD 例如scala代码:注意是3条斜杠 scala> val lines = sc.textFile("E:///1-研究生/01-课程/大数据分析应用与实践/运行代码的测试文件/textFile.t原创 2020-07-29 17:28:14 · 630 阅读 · 0 评论 -
01-启动spark shell
启动spark shell Spark 和 Hadoop的交互 Spark部署模式包括: Local 模式:单机模式 Standlone模式:使用Spark自带的简单集群管理器 YARN 模式:使用YARN作为集群管理器 Mesos 模式:使用Mesos作为集群管理器 启动spark shell 在SPAEK-SHELL中运行代码 Spark Shell提供了简单的方式来学习Spark API Spark Shell 可以以实时、交互的方式来分析数据 Spark Shell 支持Scala和Pytho原创 2020-07-29 17:19:02 · 1468 阅读 · 0 评论
分享