
Spark
Geek白先生
摆正心态,与时俱进
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark的简介、特性、环境搭建、集群管理器的搭建
spark简介定义:Apache Spark是一个用于大规模数据处理的统一分析引擎。特性:快速:针对批量和实时数据均有很好的性能 具体体现在三方面:DAG调度器(Spark-core)、查询优化(SparkSQL)、物理执行引擎(钨丝计划)易用性:快速的通过java、python、scala、R等等进行应用程序开发。常见的数据操作大概为80多个。普遍性:结合不同平台的操作:S...原创 2019-09-06 19:39:01 · 184 阅读 · 0 评论 -
Spark SQL查询方式、将DF注册成表、RDD转换DataSet
查询方式例一份数据如下:anne 22 NYjoe 39 COalison 35 NYmike 69 VAmarie 27 ORjim 21 ORbob 71 CAmary 53 NYdave 36 VAdude 50 CA显示df.show()【显示全部数据】df.show(5) 【传入数字n,只显示 n 行数据】select 查询调用select(列名)...原创 2019-09-20 19:56:45 · 1530 阅读 · 0 评论 -
SparkSQL简介、创建spark SQL开发环境、创建DF三种方式、printScheme()
SparkSQLSpark SQL是Spark的一个组件,能够很好的处理结构化数据原创 2019-09-14 19:55:38 · 2130 阅读 · 0 评论 -
使用 spark-submit 部署应用、自定义分区器、checkpoint、共享变量
spark-submit 部署应用不论使用的是哪一种集群管理器,都可以使用 spark-submit 将你的应用提交到那种集群管理器上。通过不同的配置选项,spark-submit 可以连接到相应的集群管理器上,并控制应用所使用的资源数量附加的参数:--master 表示要连接的集群管理器,后接的值如下:spark://host:port 连接到指定端口的Spark独立集群上。默认情况下...原创 2019-09-14 11:37:28 · 635 阅读 · 0 评论 -
spark降水量案例
计算俄罗斯100多年的降水总量,并列出降水量最多的十年;数据说明:【20674 1936 1 1 0 -28.0 0 -24.9 0 -20.4 0 0.0 2 0 OOOO】0.气象站编码1.年2.月3.日4.空气温度质量标记5.每日最低温度6.每日最低温度标记:0表示正常,1表示是存疑,9表示异常或无观测值7.每日平均温度8.每日平均温度标记:0表示正常,1...原创 2019-09-13 16:13:07 · 742 阅读 · 0 评论 -
spark写二次排序举例、行动操作、RDD缓存、RDD依赖、spark提交过程
文章目录二次排序行动操作RDD缓存(持久化)RDD依赖Spark提交过程二次排序对下面两个文件(文件行内容有多个空格分分隔)进行二次排序:文件:accounthadoop@apache 200hive@apache 550yarn@apache 580hive@apache 159hadoop@apache ...原创 2019-09-10 08:54:11 · 593 阅读 · 0 评论 -
Spark中的 转换操作、转换算子
学习算子推荐的网站:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html转换操作将当前RDD转换为新的RDD数据集,特点为惰性求值,当触发行动操作时RDD才开始执行计算。转换算子举例1.map、flatMap、distinctmap说明:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素...原创 2019-09-09 15:05:09 · 2120 阅读 · 0 评论 -
Spark相关组件的说明、RDD类说明、特性、创建方式、分区列表
相关组件的说明集群管理器(ClusterMananger):包含:Standalone、on yarn、on Mesos;遵循主从结构。Standalone:主节点的守护进程为:Master;从节点的守护进程为:Workeron yarn :主节点的守护进程为:ResourceManager;从节点的守护进程为:Nodemanager参照【P102页】图7-1,说明:相同背景颜色的守...原创 2019-09-08 16:04:32 · 308 阅读 · 0 评论 -
spark简单案例、独立应用搭建——idea中基于maven构建spark应用程序
spark简单案例独立应用搭建–基于Maven构建Spark应用程序1.创建Maveng工程2.配置pom文件<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</group...原创 2019-09-08 07:40:45 · 588 阅读 · 0 评论 -
SparkSQL执行流程、SQL执行计划、集成hive、内存分配
SparkSQL执行流程1.SQL执行过程select f1,f2,f3 from table_name where conditionStep1-Parse(解析):首先,根据SQL语法搜素关键字(select、from、where、group by等等),标志出projection、DataSource、filterStep2-Bind(绑定):通过解析阶段的相关内容(projec...原创 2019-09-21 18:26:24 · 654 阅读 · 0 评论