
Spark
Spark,pyspark
qq_995428887
qq-995428887
展开
-
Spark
文章目录Spark概述Spark生态系统Spark基本概念Spark运行流程RDD运行原理Spark概述Spark来源于AMP实验室,在2009年被开发,Spark是对MapReduce的缺陷进行改进的特点:运行速度快内存计算,循环数据流基于DAG的执行引擎,可以进行流水线优化2.支持多种语言Scala Java Python R通用性SQL查询:Spark SQL流式计算:Spark Streaming机器学习:Spark MLlib图算法组件:Spark的Gr原创 2020-10-17 23:03:02 · 777 阅读 · 1 评论 -
Spark-RDD
Spark中关于RDD的操作创建操作对象:from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession,Rowimport jsonconf = SparkConf().setAppName("test1").setMaster("local")sc = SparkContext(conf=conf)加载数据自定义数据rdd = sc.parallelize("sd:f:sdf:sdf")原创 2020-12-27 11:50:44 · 737 阅读 · 1 评论 -
Spark-SQL
文章目录SparkSQL简介SharkShark的两个问题SparkSQLSparkSQL的设计SparkSQL出现的原因DataFrameDataFrame的创建DataFrame的保存DataFrame常用操作RDD转换得到DataFrame1. 利用反射机制推断RDD模式2. 用编程的方式定义RDD模式SparkSQL简介Shark同样的,在Spark上也有将SQL语句转化成spark程序去执行但是刚刚开始是叫做SharkShark即Hive on Spark,为了实现与Hive兼容,Sh原创 2020-10-17 23:02:35 · 573 阅读 · 1 评论 -
Spark-Streaming
pyspark的sparkstreaming原创 2020-12-27 11:50:29 · 583 阅读 · 1 评论 -
Spark-ML
Spark MLspark.mllib基于RDD的数据抽象spark.ml基于DataFrame的数据抽象当前常用的库MLlib目前支持4种常见的机器学习问题:分类,回归,聚类和协同过滤[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I3nkEscT-1609041103285)(E:\大学作业\000_机器学习\work2\sparkml.png)]机器学习流水线DataFrame可以容纳各种数据类型,而且类似传统数据库中的二维表格。它被原创 2020-12-27 11:52:01 · 181 阅读 · 0 评论 -
查看pyspark的源码自己的一些见解
pyspark是Spark的PythonAPI几个重要的类Spark的RDD变成SparkConf用来配置Spark,SparkConf直接设置的任何参数优先于系统属性。常用的方法:setMaster:设置要连接的主urlsetAppName:设置应用的名称set:设置配置属性(以字典的形式)。将其他的set**方法写进一个字典SparkContextSparkContext是Spark功能的入口SparkContext()的初始化方法可以以参数来配置Spark,但是原创 2020-10-17 23:04:40 · 377 阅读 · 0 评论 -
使用Spark遇到的一些问题
保存文件到HDFS上,发现会分成两个块from pyspark import SparkContextsc = SparkContext()text = sc.textFile("file:///home/hadoop/course/data1.txt")print(len(text.glom().collect()))text.saveAsTextFile("/saveTextFile2")使用第四行代码查看是否是RDD分区的问题,结果显示是2,那可能就是RDD分区的问题现在将分区分.原创 2020-10-17 23:03:47 · 142 阅读 · 0 评论 -
搭建Spark环境
将spark的包解压至/opt/module/并改名为spark设置环境变量vim /etc/profileexport SPARK_HOME=/opt/module/spark2.1.1export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbinexport PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATHexport PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src原创 2020-10-17 23:03:24 · 184 阅读 · 0 评论