
Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
weixin_43563705
将自己的所学到的知识分析给大家
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
详细介绍Spark安装[内含测试小案例]
SparkSpark运行模式Spark环境搭建上传 & 解压解压目录说明启动spark-shell初体验-读取HDFS文件Standalone集群模式集群角色介绍集群规划修改配置并分发通过scp 命令将配置文件分发到其他机器上集群启动和停止测试Standalone-HA高可用模式原理配置HAScp到其他节点启动zk集群启动Spark集群测试HAOn Yarn集群模式准备工作cluster模式Client模式[了解]两种模式的区别Spark参数详解spark-shellspark-submit参数总结原创 2020-10-20 14:40:22 · 2310 阅读 · 4 评论 -
全网关注SparkSql内置函数大全[建议收藏]
Spark SQL内置函数官网API平常在使用mysql的时候,我们在写SQL的时候会使用到MySQL为我们提供的一些内置函数,如数值函数:求绝对值abs()、平方根sqrt()等,还有其它的字符函数、日期函数、聚合函数等等。使我们利用这些内置函数能够快速实现我们的业务逻辑。在SparkSQL里其实也为我们提供了近两百多种内置函数,我们通过import org.apache.spark.sql.functions._ def main(args: Array[String]): Unit = {原创 2020-10-15 12:07:03 · 3624 阅读 · 5 评论 -
从Python爬虫到Spark预处理数据的真实需求[五](Spark)
絮叨两句:博主是一名软件工程系的在校生,利用博客记录自己所学的知识,也希望能帮助到正在学习的同学们人的一生中会遇到各种各样的困难和折磨,逃避是解决不了问题的,唯有以乐观的精神去迎接生活的挑战少年易老学难成,一寸光阴不可轻。最喜欢的一句话:今日事,今日毕博主刚刚接触爬虫,有什么不足之处请大家谅解,也希望能指导一下系列文章目录从Python爬虫到Spark预处理数据的真实需求[一]从Python爬虫到Spark预处理数据的真实需求[二]从Python爬虫到Spark预处理数据的真实需求.原创 2020-08-28 16:27:26 · 2763 阅读 · 3 评论 -
SparkSQL插入数据到MongoDB
首先导入POM文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o原创 2020-06-11 11:25:52 · 3411 阅读 · 4 评论 -
SparkSQL读取MongoDB数据
首先导入POM文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o原创 2020-06-11 11:23:45 · 4793 阅读 · 4 评论 -
SparkStreaming综合整体的练习题![强烈推荐]
需求准备数据 :打开datas.txt数据,将每一行数据中第九列的数据“张三丰”更换成自己的名字,其他人不替换,并保存。[直接使用文替换]在kafak中创建RNGComment主题,设置3个分区2个副本请把datas.txt文件数据写入到kafka中,每秒钟写入一条,数据根据Index进行分区,Index小于等于150920并且为奇数的发送到一个分区中,Index小于等于1509...原创 2020-04-29 09:04:27 · 3628 阅读 · 2 评论 -
日报日报!Spark综合面试题总结
Spark什么是Spark基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。Spark特点快:Spark计算速度是MapReduce计算速度的10-100倍易用:(算法多)MR支持1种计算模型,Spsark支持更多的计算模型。通用:Spark 能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算等兼容性:Spark支持...原创 2020-04-24 12:31:18 · 4220 阅读 · 2 评论 -
日报日报!刚出炉的综合性Rdd操作练习题!快来看了!!!
题目????????????以下是租房信息的数据结构:数据之间使用tab进行分割,数据在housedata.txt文件中。依次是:数据id号 标题 链接 地区 地点 地铁站 人数 日期对应的字段依次是:id title link district bizcircle tagList onsale validdate将数据进行清洗,缺失数据的全部不要准备工作数据:链接:https://pan.bai...原创 2020-04-24 11:14:16 · 3297 阅读 · 3 评论 -
SparkSQL与Structured Streaming 综合练习题[史上最详细的代码题50道练习题]强烈推荐!!!!!!!!!!!!!!
1.使用Structured Streaming读取Socket数据,把单词和单词的反转组成 json 格式写入到当前目录中的file文件夹中package com.wzy.code.code01import org.apache.spark.sql.streaming.Triggerimport org.apache.spark.sql.{DataFrame, Dataset, Spar...原创 2020-04-24 10:45:37 · 4707 阅读 · 2 评论 -
SparkSql小项目练习题来了!趁热乎快来看!!!!
题目以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论数据说明:rng_comment.txt文件中的数据:1.1.在kafak中创建rng_comment主题,设置2个分区2个副本bin/kafka-topics.sh --create --zookeeper node01:2181,node02:2181,node03:2181 --replication-fact...原创 2020-04-23 15:18:07 · 5031 阅读 · 2 评论 -
SparkSql整合Hive,使用idea运行,启动时报:"org.apache.spark.sql.hive.HiveSessionStateBuilder"
异常错误java.lang.IllegalArgumentException: Error while instantiating ‘org.apache.spark.sql.hive.HiveSessionStateBuilder’:原因Could not locate executable null\bin\winutils.exe in the Hadoop binaries出现...原创 2020-04-14 17:09:19 · 5068 阅读 · 2 评论 -
Spark最详细安装和介绍--JavaApi!!!!!!!
Spark概述Spark官方介绍:Spark是什么?Apache Spark是用于大规模数据处理的统一分析引擎Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。官网http://spark.apache.orghttp://spark.apachecn.orgSpark特点快...原创 2020-04-07 02:09:41 · 4308 阅读 · 2 评论