
大数据学习
StrangeNightmare
这个作者很懒,什么都没留下…
展开
-
kafka数据通过flume进hdfs
之前本想用下面这种架构搭建一个集群来学习大数据但是发现这种情况下,flume到sparkstreaming的数据并不是实时过去,都是嗝了一个很长很长的间隔突然过来一堆,很玄学。这里并不是我设置Spark的采集周期的问题。后来改变架构为kafka直接把数据推到sparkStreaming里面,是下面这种架构这里我在HDFS采集的flume上面挂了一个拦截器,把日志分为启动日志和...原创 2019-12-04 17:36:53 · 351 阅读 · 0 评论 -
kafka连接flume把数据分别推到HDFS和SparkStreaming
kafka没有办法多个消费者重复消费同一个topic,所以就在kafka后面挂载flume,然后利用replicating的selector把数据分别发往HDFS做存储和sparkstreaming中实时分析。下面我贴一下flume的配置文件a1.sources = r1a1.sinks = k1 k2a1.channels = c1 c2a1.sources.r1.selector....原创 2019-12-02 18:12:18 · 349 阅读 · 0 评论 -
把hive的元数据都保存在mysql里面(hive连接mysql)
1.下载mysql-connector-java-bin.jar并放置在xxx/apache-hive-1.2.1-bin/lib文件夹下mysql-connector和mysql的版本对照2.在mysql中创建metastore数据库,并且创建用户给这个数据库赋权3.编写hive-site.xml并放置在xxx/hive/conf下<?xml version="1...原创 2019-11-28 12:16:26 · 928 阅读 · 0 评论 -
SparkStreaming 遇到LZ4BlockInputStream报错
今天在学习Spark的流式处理的时候,执行map算子和其他算子都正常,但是唯独执行groupbykey算子的时候回报如下错误Caused by: java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V at org.apache.spark....原创 2019-11-05 15:59:48 · 767 阅读 · 0 评论