- 博客(14)
- 收藏
- 关注
原创 Spark-ML
Spark MLspark.mllib基于RDD的数据抽象spark.ml基于DataFrame的数据抽象当前常用的库MLlib目前支持4种常见的机器学习问题:分类,回归,聚类和协同过滤[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I3nkEscT-1609041103285)(E:\大学作业\000_机器学习\work2\sparkml.png)]机器学习流水线DataFrame可以容纳各种数据类型,而且类似传统数据库中的二维表格。它被
2020-12-27 11:52:01
174
原创 Spark-RDD
Spark中关于RDD的操作创建操作对象:from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession,Rowimport jsonconf = SparkConf().setAppName("test1").setMaster("local")sc = SparkContext(conf=conf)加载数据自定义数据rdd = sc.parallelize("sd:f:sdf:sdf")
2020-12-27 11:50:44
723
1
原创 查看pyspark的源码自己的一些见解
pyspark是Spark的PythonAPI几个重要的类Spark的RDD变成SparkConf用来配置Spark,SparkConf直接设置的任何参数优先于系统属性。常用的方法:setMaster:设置要连接的主urlsetAppName:设置应用的名称set:设置配置属性(以字典的形式)。将其他的set**方法写进一个字典SparkContextSparkContext是Spark功能的入口SparkContext()的初始化方法可以以参数来配置Spark,但是
2020-10-17 23:04:40
368
原创 使用Spark遇到的一些问题
保存文件到HDFS上,发现会分成两个块from pyspark import SparkContextsc = SparkContext()text = sc.textFile("file:///home/hadoop/course/data1.txt")print(len(text.glom().collect()))text.saveAsTextFile("/saveTextFile2")使用第四行代码查看是否是RDD分区的问题,结果显示是2,那可能就是RDD分区的问题现在将分区分.
2020-10-17 23:03:47
137
原创 搭建Spark环境
将spark的包解压至/opt/module/并改名为spark设置环境变量vim /etc/profileexport SPARK_HOME=/opt/module/spark2.1.1export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbinexport PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATHexport PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src
2020-10-17 23:03:24
179
原创 Spark
文章目录Spark概述Spark生态系统Spark基本概念Spark运行流程RDD运行原理Spark概述Spark来源于AMP实验室,在2009年被开发,Spark是对MapReduce的缺陷进行改进的特点:运行速度快内存计算,循环数据流基于DAG的执行引擎,可以进行流水线优化2.支持多种语言Scala Java Python R通用性SQL查询:Spark SQL流式计算:Spark Streaming机器学习:Spark MLlib图算法组件:Spark的Gr
2020-10-17 23:03:02
759
1
原创 Spark-SQL
文章目录SparkSQL简介SharkShark的两个问题SparkSQLSparkSQL的设计SparkSQL出现的原因DataFrameDataFrame的创建DataFrame的保存DataFrame常用操作RDD转换得到DataFrame1. 利用反射机制推断RDD模式2. 用编程的方式定义RDD模式SparkSQL简介Shark同样的,在Spark上也有将SQL语句转化成spark程序去执行但是刚刚开始是叫做SharkShark即Hive on Spark,为了实现与Hive兼容,Sh
2020-10-17 23:02:35
569
1
原创 搭建HDFS完全分布式
文章目录搭建HDFS完全分布式1.创建hadoop101节点(主节点)1.1 基本信息配置1.2 安装JDK1.3 安装hadoop2. 创建子节点2.1 克隆2.2 配置网络信息2.3 修改主机名3.拷贝文件3.1 脚本4.集群配置4.1 集群规划4.2 配置集群4.2.1 配置.sh文件4.2.2 配置xml文件4.2.3 配置日志聚集功能和历史服务器5.启动集群6. SSH无密码登入配置7. 启动集群7.1 群起集群的命令8. 集群时间同步9. 测试新增机器搭建HDFS完全分布式删除java rp
2020-09-16 14:50:54
498
原创 Vim
vim分为三种模式一般指令模式编辑模式 需按下【i,I,o,O,a,A,r,R】等任何一个字母才能进入编辑模式末行模式 再一般模式下输入【: ,/, ?】等任何一个字母才能进入编辑模式一般指令模式 移动光标 按键功能h或←光标向左移动一个字符j或↓光标向下移动一个字符k或↑光标向上移动一个字符l或→光标向右移动一个字符...
2020-02-15 21:57:11
304
原创 Linux
LinuxLinux的文件权限与目录配置文件属性1:文件类型权限2:连接数3:文件拥有者4:文件所属群组5:文件大小6:文件最后被修改的时间7:文件名文件类型权限:第一个字符代表 [目录, 文件或文件类型等] (-为文件, d为目录)后面9个字符分为三组分别代表 [文件拥有者权限, 文件所属群组权限, 其他用户权限]改变文件属性和权限chown (修改文件拥有...
2020-02-15 21:56:55
115
原创 Numpy
文章目录创建数组从现有数据中创建数组创建给定范围的数组创建等差数列常用方法数组大小,调整数组大小得到数组维度转秩数组的拼接数组的拆分数组的排序统计数组内的值判断,并且替换索引和切片数组的广播创建数组np1 = np.array([[1,2,3],[34,44,54]],dtype=float)np2 = np.array(np.random.randint(12,size=(3,4)),dt...
2020-02-15 21:54:15
365
原创 Pandas
Pandas主要处理三个数据结构Series (序列) 处理一维数据DataFrame (数据帧) 处理二维数据Panel (面板) 处理三维数据Series的创建语法: pandas.Series( data, index, dtype, name, copy, fastpath)Serie默认的index从0开始, 也可以自己指定默认创建s1 = pd.S...
2020-02-15 21:53:58
1801
原创 JAVA
JAVA一. Java 语言版本Java SE: Java Standard Edition 标准版,核心Java EE: Java Enterprise Edition 企业版, 开发企业级应用Java ME: 小型版本Java Car: 智能卡二. Java 语言特点跨平台原理: JVM(Java Virtual Machine)Java是一个跨平台的语言, 但是JVM...
2020-01-15 17:11:45
245
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人