spark
打个大西瓜77
python大数据开发,致力于大数据知识图谱学习与研究
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 函数(python)
RDD的概念 RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。 ...转载 2018-07-19 10:27:54 · 693 阅读 · 0 评论 -
pyspark系列--字符串函数
字符串函数1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数1. 字符串拼接from pyspark.sql.functions import concat, concat_wsdf = spark.createDataFrame([('abcd','123')], ['s', ...转载 2018-07-19 11:45:21 · 6744 阅读 · 0 评论 -
pyspark系列--日期函数
日期函数 1. 获取当前日期 2. 获取当前日期和时间 3. 日期格式转换 4. 字符转日期 5. 获取日期中的年月日 6. 获取时分秒 7. 获取日期对应的季度 8. 日期加减 9. 月份加减 10. 日期差,月份差 11. 计算下一个日子的日期 12. 本月的最后一个日期1. 获取当前日期from pyspark.sql.functions import...转载 2018-07-19 11:46:35 · 7454 阅读 · 0 评论 -
centos7下安装python3、单机spark、jupyter
centos安装使用的是CentOS-7-x86_64-DVD-1708.iso root登录ssh 设置开机自动联网 配置linux环境 更改openjdk为java jdk 卸载openjdk 安装java jdk 安装python 配置python环境变量 安装Jupyter 安装单机spark 将pyspark与jupyter连接 使用jupyter...转载 2018-08-10 15:05:19 · 806 阅读 · 0 评论 -
Spark计算模型
Part 11. Spark计算模型1.1 Spark程序模型首先通过一个简单的实例了解Spark的程序模型。1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量file。valfile=sc.textFile("hdfs://xxx")2)RDD中的filter函数过滤带“ERROR”的行,输出errors(errors也是一个RDD)。...转载 2018-08-15 10:59:45 · 6300 阅读 · 1 评论
分享