qq_995428887-优快云博客

原创 Spark-ML

Spark MLspark.mllib基于RDD的数据抽象spark.ml基于DataFrame的数据抽象当前常用的库MLlib目前支持4种常见的机器学习问题：分类，回归，聚类和协同过滤[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I3nkEscT-1609041103285)(E:\大学作业\000_机器学习\work2\sparkml.png)]机器学习流水线DataFrame可以容纳各种数据类型，而且类似传统数据库中的二维表格。它被

2020-12-27 11:52:01 174

原创 Spark-RDD

Spark中关于RDD的操作创建操作对象：from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession,Rowimport jsonconf = SparkConf().setAppName("test1").setMaster("local")sc = SparkContext(conf=conf)加载数据自定义数据rdd = sc.parallelize("sd:f:sdf:sdf")

2020-12-27 11:50:44 723 1

原创 Spark-Streaming

pyspark的sparkstreaming

2020-12-27 11:50:29 561 1

原创查看pyspark的源码自己的一些见解

pyspark是Spark的PythonAPI几个重要的类Spark的RDD变成SparkConf用来配置Spark，SparkConf直接设置的任何参数优先于系统属性。常用的方法：setMaster：设置要连接的主urlsetAppName：设置应用的名称set：设置配置属性（以字典的形式）。将其他的set**方法写进一个字典SparkContextSparkContext是Spark功能的入口SparkContext()的初始化方法可以以参数来配置Spark，但是

2020-10-17 23:04:40 368

原创使用Spark遇到的一些问题

保存文件到HDFS上，发现会分成两个块from pyspark import SparkContextsc = SparkContext()text = sc.textFile("file:///home/hadoop/course/data1.txt")print(len(text.glom().collect()))text.saveAsTextFile("/saveTextFile2")使用第四行代码查看是否是RDD分区的问题，结果显示是2，那可能就是RDD分区的问题现在将分区分.

2020-10-17 23:03:47 137

原创搭建Spark环境

将spark的包解压至/opt/module/并改名为spark设置环境变量vim /etc/profileexport SPARK_HOME=/opt/module/spark2.1.1export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbinexport PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATHexport PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src

2020-10-17 23:03:24 179

原创 Spark

文章目录Spark概述Spark生态系统Spark基本概念Spark运行流程RDD运行原理Spark概述Spark来源于AMP实验室，在2009年被开发，Spark是对MapReduce的缺陷进行改进的特点：运行速度快内存计算，循环数据流基于DAG的执行引擎，可以进行流水线优化2.支持多种语言Scala Java Python R通用性SQL查询：Spark SQL流式计算：Spark Streaming机器学习：Spark MLlib图算法组件：Spark的Gr

2020-10-17 23:03:02 759 1

原创 Spark-SQL

文章目录SparkSQL简介SharkShark的两个问题SparkSQLSparkSQL的设计SparkSQL出现的原因DataFrameDataFrame的创建DataFrame的保存DataFrame常用操作RDD转换得到DataFrame1. 利用反射机制推断RDD模式2. 用编程的方式定义RDD模式SparkSQL简介Shark同样的，在Spark上也有将SQL语句转化成spark程序去执行但是刚刚开始是叫做SharkShark即Hive on Spark，为了实现与Hive兼容，Sh

2020-10-17 23:02:35 569 1

原创搭建HDFS完全分布式

文章目录搭建HDFS完全分布式1.创建hadoop101节点（主节点）1.1 基本信息配置1.2 安装JDK1.3 安装hadoop2. 创建子节点2.1 克隆2.2 配置网络信息2.3 修改主机名3.拷贝文件3.1 脚本4.集群配置4.1 集群规划4.2 配置集群4.2.1 配置.sh文件4.2.2 配置xml文件4.2.3 配置日志聚集功能和历史服务器5.启动集群6. SSH无密码登入配置7. 启动集群7.1 群起集群的命令8. 集群时间同步9. 测试新增机器搭建HDFS完全分布式删除java rp

2020-09-16 14:50:54 498

(:

原创 Spark-ML

原创 Spark-RDD

原创 Spark-Streaming

原创查看pyspark的源码自己的一些见解

原创使用Spark遇到的一些问题

原创搭建Spark环境

原创 Spark

原创 Spark-SQL

原创搭建HDFS完全分布式

原创 Vim

原创 Linux

原创 Numpy

原创 Pandas

原创 JAVA

flask+pySpark做的小项目

空空如也