spark
low-bee
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hiveserveice2断开连接
背景 使用idea连接hiveserveice2, 开始的时候没有报错,运行一段任务后, 任务失败, 尝试重新运行时出现 java.io.Exception:连接被拒绝 原因 hiveservice2服务因为空间不足被kill, 查看日志后发现Java Heap 异常, 因此是内存不足引起的 解决 将hive/conf/hive-env.sh中的# export HADOOP_HEAPSIZE= 修改为 export HADOOP_HEAPSIZE=1024 重启hiveservice2出现错误 serv原创 2021-04-27 11:15:42 · 1264 阅读 · 0 评论 -
Spark 对接 Kafka
Spark对接Kafka Kafka作为工作中最常用到的消息中间件, 以其高速处理消息出现在实时处理领域. 要使用Kafka做实时处理,那么就必须说道Spark和Kafka之间的对接 对接方式 Kafka作为Spark Executor的生产者, Spark Executor从Kafka中拉取数据并进行内容的计算. 准备 创建一个Maven, 导入需要的依赖 <dependencies> <!--spark core--> <dependency>原创 2021-04-24 16:57:18 · 684 阅读 · 0 评论 -
scala序列化错误
Spark的对象序列化机制 当我使用如下代码来测试foreach的时候, 出现了 def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("RDD").setMaster("local[*]")) val user = new User(age = 30) sc.makeRDD(List(1,2,3,4)).foreach( num =>原创 2021-04-22 17:10:45 · 509 阅读 · 0 评论 -
# Spark makeRDD默认分区策略
指定参数 sc.makeRDD(List[Int](1, 2, 3, 4), numSlices = 3) 得到结果 [1], [2], [3,4] 为什么会这样分呢? //到对应的方法中 def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { assertNotStopped() new ParallelCollect原创 2021-04-22 08:32:30 · 512 阅读 · 0 评论 -
Spark 默认parallelize问题
parallelize spark中有并发的概念, 当使用parallelize方法, 或者makeRDD方法创建一个RDD的时候, 可以选择传入一个默认的并行度, 来提高效率. 当不传入第二个参数的时候, 默认是几个分区呢? def makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { parallelize(seq, numSlices)原创 2021-04-21 22:44:06 · 716 阅读 · 0 评论
分享