
spark
奔跑着的蜗牛
做一棵永远向阳的向日葵
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark集成Hbase小结
本人spark版本2.2.0,hadoop版本2.6.0,hbase版本1.2.0 spark通过hive访问外表,进而才能对hbase的数据进行相关操作,同时本人的metastore是存放在mysql里面。 接下来spark集成hbase,很简单,把hbase中lib下的以下jar包拷贝到spark中的jars文件夹下面: 重新开启bin/spark-shell进入spark,即可通过...原创 2019-04-10 14:17:07 · 979 阅读 · 0 评论 -
SparkStreaming与kafka的整合小结
Spark的流处理,不光是分批还是进行结构化,都能很好的处理来自kafka或socket的数据。接下来说说spark与kafka整合的步骤,以免发生各种各样的错误(原本大数据的生态多,spark的版本更新和功能迭代快,为了少出现错误,最好遵循原版说明) 1.首先你要确认好你的spark版本和kafka的版本,因为不同的版本有可能导入的包不一样和程序写法不一样 2.开发时pom.xml...原创 2019-04-12 12:39:20 · 469 阅读 · 0 评论 -
Spark DataFrame自定义函数用于指定列 column UDF scala版
查了好多东西,Spark DataFrame对列进行操作,agg不能满足对列的所有元素进行广播。不像Python中的DataFrame操作那样方便。后来发现我们可以使用UDF来注册自定义的函数,从而像使用min、max函数一样方便操作。 spark版本:2.2.0 大致过程分为:自定义函数,只能有一个参数和一个返回值 ...原创 2019-07-24 15:27:01 · 2405 阅读 · 0 评论