
Spark
清风千雨
大数据,java后端
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark直连kafka 0.10版本
新版本和老版本区别 之前老版本通过直连维护偏移量使用的Api和新版的不一样,老版本不自行维护偏移量的话是自动维护到zk中 新版会把偏移量维护到kafka中 老版本实现 https://blog.youkuaiyun.com/qq_33598343/article/details/87905091 新版本实现 https://www.it610.com/article/1288775916218032128.htm ...原创 2020-08-19 23:49:33 · 448 阅读 · 0 评论 -
Unable to instantiate SparkSession with Hive support because Hive classes are not found
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactI...转载 2020-03-06 20:52:13 · 492 阅读 · 0 评论 -
spark sql on hive配置及其使用
https://blog.youkuaiyun.com/a11a2233445566/article/details/54633033?utm_source=distribute.pc_relevant.none-task转载 2020-02-20 00:15:49 · 673 阅读 · 0 评论 -
Spark窗口操作
窗口操作 窗口:对落在窗口内的数据进行处理,也是一个DStream,RDD 举例:每10秒钟把过去30秒的数据采集过来 代码实现 窗口滑动距离(reducebykeyandwindow的参数)必须是采样时间的整数倍(steamingcontext的参数) 业务场景 1.计算一天内接口的调用次数 窗口滑动距离:1天 ...原创 2019-07-15 23:36:30 · 331 阅读 · 0 评论 -
Spark性能调优
Spark 调优 Spark 性能优化概览: Spark的计算本质是,分布式计算。 所以,Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者内存。 CPU、网络带宽,是运维来维护的。 聚焦点:内存。 如果内存能够容纳下所有的数据,那就不需要调优了。 如果内存比较紧张,不足以放下所有数据(10亿量级---500G),需要对内存的使用进行性能优化。 比如:使用某些方法减少...原创 2019-05-19 15:52:37 · 340 阅读 · 0 评论 -
spark中cache和persist的区别
源码分析 https://blog.youkuaiyun.com/houmou/article/details/52491419转载 2019-05-04 17:55:45 · 618 阅读 · 0 评论 -
Spark直连Kafka
bject KafkaDirectWordCount { def main(args: Array[String]): Unit = { //1.创建sparkStreaming程序入口 val conf: SparkConf = new SparkConf().setAppName("KafkaDirectWordCount") .setMaster("local...原创 2019-02-24 17:03:19 · 893 阅读 · 1 评论 -
Spark-cache&checkPoint-自定义排序
cache scala> val rdd = sc.textFile("/root/tecont.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) rdd: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[19] at reduceByKey at <console...原创 2019-01-22 22:24:33 · 244 阅读 · 0 评论 -
Spark-jdbcRDD-mysql
将数据导入到mysql object UrlGroupCount1 { def main(args: Array[String]): Unit = { //1.创建spark程序入口 val conf: SparkConf = new SparkConf().setAppName("UrlGroupCount1").setMaster("local[2]") val s...原创 2019-01-22 20:46:18 · 297 阅读 · 0 评论 -
Spark-Streaming
WordCount object WordCount { def main(args: Array[String]): Unit = { //1.创建sparkContext val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]") val sc = new SparkContext...原创 2019-01-26 18:32:57 · 392 阅读 · 0 评论 -
Spark-SQL数据源与写出格式
以mysql作为数据源 object JdbcSource { def main(args: Array[String]): Unit = { //1.sparkSQL 创建sparkSession val sparkSession: SparkSession = SparkSession.builder().appName("JdbcSource") .mast...原创 2019-01-26 15:47:02 · 606 阅读 · 0 评论 -
Spark-SQL
SQL风格的操作 通过封装数据和创建描述表信息来创建DataFrame,然后注册表 (最基本的) object SqlTest1 { def main(args: Array[String]): Unit = { //1.构建SparkSession val sparkSession = SparkSession.builder().appName(&amp;quot;SqlTest1&amp;quot;) ...原创 2019-01-25 21:25:41 · 575 阅读 · 0 评论 -
Spark案例,日志分析(自定义分区)
需求: 数据: 20180724101954 http://java.itstar.com/java/course/javaeeadvanced.shtml 20180724101954 http://java.itstar.com/java/course/javaee.shtml 20180724101954 http://java.itstar.com/java/course/android....原创 2019-01-21 12:11:16 · 277 阅读 · 0 评论 -
RDD常用的高级算子
spark高级算子 1)mapPartionWithIndex(func) 设置分区,并且查看每个分区中存放的元素 查看每个分区中元素 需要传递函数作为参数 val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x =>"["+ "partID:" + index + "," + "datas:" + x + ...原创 2019-01-18 23:25:27 · 434 阅读 · 0 评论 -
集群运行Spark与RDD算子创建与使用
启动sparkshell 本地模式:bin/spark-shell 集群启动:bin/spark-shell --master spark://spark-01:7077 –total-executor-cores 2 –executor-memory 500mb spark集群角色 |Yarn |Spark |作用| |ResourceManage | Master |...原创 2019-01-17 15:15:37 · 267 阅读 · 0 评论 -
Spark集群部署与WordCount
Spark概述 官网:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。 为大数据处理而设计的快速通用的计算引擎。 Spark加州大学伯克利分校AMP实验室。不同于mapreduce的是一个Spark任务的中间 结果保存到内存中。 空间换时间。 Spark启用的是内存分布式数据集。 用scala语言实现,与spark紧密继承。用scal...原创 2019-01-17 12:44:31 · 464 阅读 · 0 评论