spark
a大数据yyds
大数据初学者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark部分端口汇总
50070:HDFSwebUI的端口号8485:journalnode默认的端口号9000:非高可用访问数rpc端口8020:高可用访问数据rpc8088:yarn的webUI的端口号8080:master的webUI,Tomcat的端口号7077:spark基于standalone的提交任务的端口号8081:worker的webUI的端口号18080:historyServer的webUI的端口号4040:application的webUI的端口号2181:zookeeper的rpc.原创 2021-06-07 17:20:18 · 629 阅读 · 0 评论 -
Spark的知识点总结
什么是Spark基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。Spark特点快:Spark计算速度是MapReduce计算速度的10-100倍易用:(算法多)MR支持1种计算模型,Spsark支持更多的算模型。通用:Spark 能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算等兼容性:Spark支持大数据中的Y...原创 2020-04-24 20:29:51 · 1583 阅读 · 0 评论 -
使用Spark Streaming对接kafka之后进行计算
以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论数据说明:rng_comment.txt文件中的数据rng_comment.txt(数据太大只能上传到百度云):链接: https://pan.baidu.com/s/164mBxiccbkLdFHF5BcSjww 提取码: vykt1、在kafak中创建rng_comment主题,设置2个分区2个副本/export/...原创 2020-04-23 15:53:10 · 3097 阅读 · 1 评论 -
spark sql的练习题
1、使用Structured Streaming读取Socket数据,把单词和单词的反转组成 json 格式写入到当前目录中的file文件夹中2、请使用Structured Streaming读取student_info文件夹写的csv文件,2.1、统计出文件中的男女生各有多少人2.2、统计出姓“王”男生和女生的各有多少人3、请使用Structured Streaming读取departm...原创 2020-04-18 16:51:31 · 3521 阅读 · 3 评论 -
StructuredStreaming整合MySQL
整合MySQL简介需求我们开发中经常需要将流的运算结果输出到外部数据库,例如MySQL中,但是比较遗憾Structured Streaming API不支持外部数据库作为接收器如果将来加入支持的话,它的API将会非常的简单比如:format(“jdbc”).option(“url”,“jdbc:mysql://…”).start()但是目前我们只能自己自定义一个JdbcSink,继承F...原创 2020-04-16 18:24:31 · 1460 阅读 · 0 评论 -
StructuredStreaming整合Kafka
StructuredStreaming整合Kafka官网介绍http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html整合环境准备●启动kafka/export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers...原创 2020-04-16 18:19:56 · 1541 阅读 · 0 评论 -
使用IDEA编写StructuredStreaming_json
读取本地文件:在people.json文件输入如下数据:{“name”:“json”,“age”:23,“hobby”:“running”}{“name”:“charles”,“age”:32,“hobby”:“basketball”}{“name”:“tom”,“age”:28,“hobby”:“football”}{“name”:“lili”,“age”:24,“hobby”:“r...原创 2020-04-16 18:14:57 · 1427 阅读 · 0 评论 -
使用IDEA编写StructuredStreaming_scoket
Socket数据实时计算:准备工作nc -lk 9999hadoop spark sqoop hadoop spark hive hadoop代码演示 :def main(args: Array[String]): Unit = {//1 创建sparksessionval spark: SparkSession = SparkSession.builder().mast...原创 2020-04-16 18:12:32 · 1111 阅读 · 0 评论 -
StructuredStreaming的介绍_第一章
Structured Streaming介绍Structured Streaming(使用SQL计算实时数据)官网http://spark.apache.org/docs/latest/structured-streaming-programming-guide.htmlSpark Streaming 是一个基于Spark CoreStructured Streaming是一个...原创 2020-04-16 18:02:32 · 1065 阅读 · 0 评论 -
SparkStreaming整合kafka的代码
SparkStreaming整合kafka的代码def main(args: Array[String]): Unit = {//1 创建sparkConfvar conf=new SparkConf().setAppName(“SparkStreaming”).setMaster(“local[*]”)//2 创建sparkContextvar sc =new SparkContex...原创 2020-04-16 17:47:18 · 1199 阅读 · 0 评论 -
SparkStreaming整合kafka_的介绍第二章
Kafka快速回顾核心概念图解:Broker : 安装Kafka服务的机器就是一个brokerProducer :消息的生产者,负责将数据写入到broker中(push)Consumer:消息的消费者,负责从kafka中拉取数据(pull),老版本的消费者需要依赖zk,新版本的不需要Topic: 主题,相当于是数据的一个分类,不同topic存放不同业务的数据 --主题:区分业务Re...原创 2020-04-16 17:43:02 · 924 阅读 · 0 评论 -
使用idea编写SparkStreaming_reduceByKeyAndWindow
使用idea编写SparkStreaming_reduceByKeyAndWindow窗口函数:代码演示:package cn.itcast.streamingimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Secon...原创 2020-04-16 17:37:36 · 1128 阅读 · 0 评论 -
使用idea编写Spark Streaming_updateStateByKey
使用idea编写Spark Streaming_updateStateByKeypackage cn.itcast.streamingimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingCon...原创 2020-04-16 17:33:54 · 1235 阅读 · 0 评论 -
使用idea编写Spark Streaming_WordCount
需求&准备图解:首先在linux服务器上安装nc工具nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据yum install -y nc启动一个服务端并开放9999端口,等一下往这个端口发数据==nc -lk 9999 ==发送数据代码演示:package cn.itcast.streamingimport org.apache.s...原创 2020-04-16 17:31:58 · 1296 阅读 · 0 评论 -
Spark Streaming介绍_第一章
Spark Streaming介绍●官网http://spark.apache.org/streaming/●概述Spark Streaming是一个基于Spark Core之上的实时计算框架。特点易用:可以像编写离线批处理一样去编写流式程序,支持java/scala/python语言。容错:SparkStreaming在没有额外代码和配置的情况下可以恢复丢失的工作。易整合到Sp...原创 2020-04-16 17:27:26 · 1020 阅读 · 0 评论 -
SparkSQL整合Hive
1、Hive查询流程及原理执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务Hive将SQL转成MapReduce执行速度慢使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据所以首先需要开启Hive的元数据库服务,让SparkSQL能够加载元数据2、 H...原创 2020-04-16 17:12:09 · 1072 阅读 · 0 评论 -
扩展:开窗函数_第六章
1、 概述https://www.cnblogs.com/qiuting/p/7880500.html介绍:开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。聚合函数和开窗函数聚合函数是将多行变成一行,count,avg....开窗函数是将一行变成多行;聚合函数如果要显示其他的列必须将列加入到group by中开窗函数可以不使用group by,直接将所有信息显示出来开...原创 2020-04-16 17:05:01 · 1119 阅读 · 0 评论 -
Spark SQL自定义函数_第五章
1.自定义函数分类类似于hive当中的自定义函数, spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类1.UDF(User-Defined-Function)输入一行,输出一行2.UDAF(User-Defined Aggregation Funcation)输入多行,输出一行3.UDTF(User-Defined Table-Generating F...原创 2020-04-16 16:51:14 · 1138 阅读 · 0 评论 -
Spark SQL多数据源交互_第四章
Spark SQL可以与多种数据源交互,如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源写数据:package cn.itcast.sqlimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimpor...原创 2020-04-16 16:46:54 · 1076 阅读 · 0 评论 -
通过IDEA编写SparkSQL代码_SQL风格&&_DSL风格
通过IDEA编写SparkSQL代码_SQL风格与_DSL风格1、SQL风格package cn.itcast.sqlimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object WordCount {def main(args: Arr...原创 2020-04-16 16:39:25 · 1319 阅读 · 0 评论 -
通过IDEA编写SparkSQL代码_相互转化
RDD、DF、DS之间的相互转换有很多(6种),但是我们实际操作就只有2类:1)使用RDD算子操作2)使用DSL/SQL对表操作package cn.itcast.sqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, D...原创 2020-04-16 16:35:04 · 1197 阅读 · 0 评论 -
通过IDEA编写SparkSQL代码_花式查询
通过IDEA编写SparkSQL代码_花式查询package cn.itcast.sqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}object QueryDemo {case class ...原创 2020-04-16 16:33:10 · 1210 阅读 · 0 评论 -
通过IDEA编写SparkSQL代码_第三章
通过IDEA编写SparkSQL代码创建DataFrame/DataSet第1种:指定列名添加Schema第2种:通过StructType指定Schema第3种:编写样例类,利用反射机制推断Schema数据tt.txt:1 zhangsan 202 lisi 293 wangwu 254 zhaoliu 305 tianqi 356 kobe 40第一种:指定列名添加S...原创 2020-04-16 16:31:10 · 1044 阅读 · 0 评论 -
spark的两种查询风格
两种查询风格1、准备工作读取文件并转换为DataFrame或DataSetval lineRDD= sc.textFile(“hdfs://node01:8020/person.txt”).map(_.split(" "))case class Person(id:Int, name:String, age:Int)val personRDD = lineRDD.map(x =>...原创 2020-04-16 16:21:40 · 1126 阅读 · 0 评论 -
Spark SQL初体验_第二章
SparkSQL驱动为SparkSessionSparkSession可以执行SparkSQL也可以执行HiveSQL1、创建DataFrame创读取文本文件1.在本地创建一个文件,有id、name、age三列,用空格分隔,然后上传到hdfs上vim /root/person.txt1 zhangsan 202 lisi 293 wangwu 254 zhaoliu 305 ...原创 2020-04-16 16:17:57 · 1064 阅读 · 0 评论 -
SparkSQL的介绍第一章
Spark SQLSpark SQL官方介绍●官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。1、什么是SparkSQL?用于处理结构化数据的Spark模块。可以通过DataFrame和DataSet处理数据。...原创 2020-04-16 16:09:30 · 1192 阅读 · 0 评论 -
RDD的持久化/缓存/容错机制/宽窄依赖/生成和划分Stage/累加器和广播变量
RDD的持久化/缓存/容错机制/宽窄依赖/生成和划分Stage/累加器和广播变量1、RDD的持久化/缓存Rdd数据持久化什么作用?1、对多次使用的rdd进行缓存,缓存到内存,当后续频繁使用时直接在内存中读取缓存的数据,不需要重新计算。2、将RDD结果写入硬盘(容错机制),当RDD丢失数据时,或依赖的RDD丢失数据时,可以使用持久化到硬盘的数据恢复。持久化/缓存(内存)缓存方法Pers...原创 2020-04-08 10:17:49 · 1681 阅读 · 0 评论 -
使用spark向hbase表添加数据
使用spark向hbase表添加数据(数据库、表、数据自己定), 使用spark将hbase表中的数据查询出来打入控制台。(在spark向hbase表添加数据需要:先开启zk、hbase,进入hbase shell窗口)数据:List((“1”,“apple”,“11”), (“2”,“banana”,“12”), (“3”,“pear”,“13”))代码:object hbase {...原创 2020-04-08 09:42:09 · 2073 阅读 · 0 评论 -
使用spark操作JDBC数据存入到MySQL并读取出来
Spark操作JDBC实现将数据存入到MySQL并读取出来(在虚拟机mysql操作)数据:List((“aaa”,18),(“bbb”,19),(“ccc”,20)代码:object mysql02 { def main(args: Array[String]): Unit = { //Spark支持通过Java JDBC访问关系型数据库。需要使用JdbcRDD /...原创 2020-04-08 09:34:35 · 1673 阅读 · 0 评论 -
Spark操作JDBC将数据存入到MySQL并读取出来
Spark操作JDBC-API实现将数据存入到MySQL并读取出来(在小海豚里面操作)代码:bject mysql { def main(args: Array[String]): Unit = { //Spark支持通过Java JDBC访问关系型数据库。需要使用JdbcRDD //创建 val conf = new SparkConf().setAppName(...原创 2020-04-08 09:30:43 · 1708 阅读 · 0 评论 -
SparkConf的练习题
小补充:-》宽依赖的操作有哪些?宽依赖:父RDD的一个分区会被子RDD的多个分区依赖操作:groupByKey,reduceByKey,sortByKey,partitionBy, join1、创建一个1-10数组的RDD,将所有元素2形成新的RDD2、创建一个10-20数组的RDD,使用mapPartitions将所有元素2形成新的RDD3、创建一个元素为 1-5 的RDD,运用 ...原创 2020-04-08 09:23:49 · 2221 阅读 · 0 评论 -
spark的基础练习
练习1、 创建RDDval rdd1 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))val rdd2 = sc.makeRDD(List(5,6,4,7,3,8,2,9,1,10))2、查看该RDD的分区数量sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).partitions.length//没有指定...原创 2020-04-07 17:02:07 · 1464 阅读 · 0 评论 -
idea编写spark程序
IDEA编写Spark程序1、 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:...原创 2020-04-07 11:10:15 · 2841 阅读 · 4 评论 -
Spark的安装部署
Spark安装部署1、安装下载Spark安装包下载地址:http://spark.apache.org/downloads.htmlLocal模式安装部署使用CDH5.14.0-Spark2.2版本第一步:解压tar -zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz -C …/servers/第二步:开箱即用(local模式)进入spark...原创 2020-04-07 10:55:45 · 1979 阅读 · 0 评论 -
Spark的基本介绍
Spark1、什么是Spark是基于内存的用于大规模数据处理(离线计算、实时计算、快速查询)的统一分析引擎。也是一个生态系统。2、官网http://spark.apache.orghttp://spark.apachecn.org3、Spark特点1)、速度快比MapReduce块10-100倍2)、易用(算法多)MR只支持一种计算 算法,Spark支持多种算法。3)、通...原创 2020-04-07 10:25:49 · 1238 阅读 · 0 评论
分享