
大数据
文章平均质量分 91
爆米花机枪手
无知者无畏~
展开
-
Hive上使用UDF遇到的诡异的事
Hive上使用UDF遇到的诡异的事Hive上使用UDF遇到的诡异的事背景噩梦开始后续Hive上使用UDF遇到的诡异的事这里记录一下自己用UDF遇到的问题,最后虽然解决了也知道是什么原因导致的,但是没有从代码或Hive层面去理解,全是靠自己意会出来的。背景一个业务需求,需要在hive上操作,逻辑比较复杂,写了两个udf,用的是一项目,对应的目录如下:└─src ├─main └─java └─com └─quick └─udf原创 2020-07-16 21:22:52 · 748 阅读 · 0 评论 -
Spark再体验之springboot整合spark
有说胎记是前世死的方式,偶肚子上有个,于是想,难不成上辈子是被人捅死的,谁那么狠。。。后来遇到个人,在同样的位置也有个类似的,忽然就平衡了。 神回复:也可能你们俩上辈子是很烤串前言 上一篇主要讲的是spark环境的搭建和任务的提交,这一篇是将spark直接部署在springboot搭建的web服务里,一些数据逻辑交给spark去处理,至于原理等我对spark有了更深的理解再来一一讲述!编原创 2017-04-17 22:28:52 · 29249 阅读 · 19 评论 -
Spark初体验(配置超详细)
一乡二里共三夫子不识四书五经六义竟敢教七八九子十分大胆! 十室九贫 凑得八两七钱六分五毫四厘 尚且三心二意 一等下流前言 这里,不谈spark原理,作用,使用场景等,只是一个spark与java打通的一个过程。看似简单,整整花了哥两天的时间,版本号的坑,服务器的坑等等,头胀的能飘起来~!按照我下面说的环境和步骤去做,保证你99%能一次跑过,因为我是一边写此篇一边在新的虚拟机配置。一切都ok原创 2017-04-14 17:28:36 · 4956 阅读 · 3 评论 -
Apache TIKA---抽取多类型文件文本内容和文件的“隐藏信息”
前言有这样一个需求“用户上传一个文件,要得到这个文件的文本内容,和它的创建时间(用户创建的时间)” 乍一看上去,很简单啊,可以按字节读文件或按行读文件,也可以根据文件的类型引入对应的jar包去获取内容。文件的创建时间,我找了一些资料,可以通过下面代码实现原创 2017-05-08 21:46:49 · 2443 阅读 · 0 评论 -
搭建spark on yarn 集群
两台用的都是ubuntu IP 主机名 192.168.22.137 spark-master 192.168.22.150 spark-slave1更改主机名确定每个节点的主机名与它在集群中所处的位置相同 如果不同,需要修改vi /etc/hostname 重启生效可能需要些安装某些工具包更换sources源...原创 2018-05-03 17:46:24 · 1154 阅读 · 0 评论 -
Logstash 简易教程
建议在使用logstash之前先想清楚自己的需求是什么,从哪种数据源同步到哪里,需要经过怎么样的处理。因为logstash版本迭代较快,每个版本的插件都有点区别,比如filter中的http插件在6.6版本以后才有;output到现在(7.1)都没有jdbc的插件,然而你如果想使用output的jdbc插件就需要自己去安装热心人自己写的插件(logstash-output-jdbc),不幸的是,该...原创 2019-06-25 23:01:06 · 1685 阅读 · 0 评论 -
Springboot快速教程---Docker搭建与整合Kafka
最近在搭建一个简易的基于Flink的实时推荐系统中用到了kafka,就快速的整合了下并记录在此简介什么是KafkaApache Kafka是一个分布式发布 - 订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端点传递到另一个端点。 Kafka适合离线和在线消息消费。 Kafka消息保留在磁盘上,并在群集内复制以防止数据丢失。 Kafka构建在ZooKeeper同步服务...原创 2019-07-18 20:17:38 · 737 阅读 · 0 评论