
spark
文章平均质量分 60
不会飞的乌龟
这个作者很懒,什么都没留下…
展开
-
sparkStreaming同时访问kafka和hive
sparkStreaming同时访问kafka和hivepackage com.gcy.scala.spark.OnKafKaimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimpo原创 2021-08-23 11:11:16 · 171 阅读 · 0 评论 -
SparkOnHive本地运行访问hive(IDEA)
SparkOnHive本地运行访问hive(IDEA)1. 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>原创 2021-08-23 10:58:03 · 280 阅读 · 0 评论 -
Spark 基本架构及原理
Spark 基本架构及原理转载链接https://www.cnblogs.com/cxxjohnson/p/8909578.html Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了转载 2021-05-11 13:26:45 · 205 阅读 · 0 评论 -
spark原理简介
spark简介以及原理spark简介 spark是基于内存的分布式处理框架,它把要执行的作业拆分成多个任务,然后将任务分发到多个CPU进行处理,处理结果的中间数据存储在内存中,减少了数据处理过程中对硬盘的I/O操作,大大提升了处理效率。spark和MapReduce对比 spark相对于mr,性能上提高了100倍。 &原创 2021-05-11 10:15:02 · 1020 阅读 · 0 评论 -
Spark性能调优
Spark性能调优-高级篇前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的...转载 2020-03-10 16:13:09 · 110 阅读 · 0 评论 -
spark 链接mysql/SQLServer数据库的pom文件依赖以及代码
pom文件依赖: <!--sqlserver数据库访问--> <dependency> <groupId>com.microsoft.sqlserver</groupId> <artifactId>mssql-jdbc</artifactId> ...原创 2019-03-27 11:17:15 · 1605 阅读 · 0 评论 -
sparkSQL 写数据到MySQL的几种模式解释以及overwrite模式在不删除表结构的情况下的实现
1、数据存入Mysql 几种模式 默认为SaveMode.ErrorIfExists模式,该模式下,如果数据库中已经存在该表,则会直接报异常,导致数据不能存入数据库; SaveMode.Append 如果表已经存在,则追加在该表中;若该表不存在,则会先创建表,再插入数据; SaveMode.Overwrite 重写模式,其实质是先将已有的表及其数据全都删除,再重新创建该表,最后插入新的...原创 2019-03-26 12:09:03 · 7740 阅读 · 1 评论 -
spark 读取Hbase数据直接生成rdd
package com.lenovo.hbaseToMysqlimport java.util.Propertiesimport com.lenovo.Utils.MysqlSessionimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client._import org....原创 2019-03-26 11:00:00 · 1956 阅读 · 0 评论 -
spark用saveAsHadoopDataset()算子写入hbase数据阻塞
spark用saveAsHadoopDataset()算子写入hbase数据阻塞问题解决:1、检查之后发现每次调用saveAsHadoopDataset方法后,没有释放zookeeper的session,导致zookeeper的session达到最大值(默认60),可以通过设置zookeeper的最大连接数,但是一直不释放session才是根本问题!2、使用新的api,saveAsNewHad...原创 2019-03-25 18:39:37 · 1486 阅读 · 1 评论 -
spark map函数中数组转元祖(Row)以及schema信息转DF
package com.lenovo.ftpimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{StringType, StructField, StructType}import scala.collection.mutable.ListBufferclass Spark...原创 2019-03-21 18:04:14 · 5546 阅读 · 0 评论