- 博客(21)
- 资源 (1)
- 收藏
- 关注

原创 关于搭建CDH中遇到的问题
本人搭建的cdh版本是5.10.1,服务器的版本是redhat 7.4,在搭建cdh的过程中遇见了下列问题,分享出来给大家参考参考一、CDH搭建成功以后,安装服务的过程中突然崩溃的步骤: 解决: 1> 删除Agent节点的UUID # rm -rf /opt/cm-5.4.7/lib/cloudera-scm-agent/* 2>...
2018-12-29 09:59:31
836
2
原创 关于java连接kudu或者flume的kudusink的异常汇总
1、Caused by: org.apache.kudu.client.NonRecoverableException: Could not connect to a leader master. Client configured with 1 master(s) (xxxx:7051) but cluster indicates it expects 3 master(s) (xxx,xxx,...
2020-01-16 11:54:45
1626
原创 spark2.2 批量往es7.1.1中插入数据的时候问题
报的错为:Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, org.elasticsearch.spark.deploy.yarn.security.EsServiceCredentialProvider.credentialsRequir...
2019-09-05 18:22:02
1385
原创 HashMap、HashTable、ConcurrentHashMap、TreeMap的区别
1、HashMap: 实现了Map接口,允许一个NULL键和多个NULL值,是非线程安全的,当出现多线程操作时就涉及到了数据的同步问题,可以通过使用Collections.synchronizedMap(Map<K,V> m)方法来从HashMap中获取线程安全的Map,但是这个synchronized会锁住整个HashMap,意味着会效率低,2、HashTable:...
2019-07-03 14:19:30
861
原创 关于java和scala当中HashMap的原理总结
HashMap是基于数据结构哈希表的原理,在jdk1.8之前底层的存储结构是数组加链表,在jdk1.8包括1.8之后存储结构是数组加链表或者红黑树。1、put():当调用put方法往hashmap里存放对象的时候,首先会将这个key-value键值对实例化成一个Entry对象,然后会调用key的hashCode()方法,取得hash值之后,会根据hash值与数组的长度取模的结果找到其应该存放的...
2019-06-13 15:19:12
1489
原创 flink的检查点(checkpoint)和保存点(savepoint)的区别
一、检查点:检查点屏障跟普通记录一样。它们由算子处理,但并不参与计算,而是会触发与检查点相关的行为。会在算子之间流动。当读取输入流的数据源遇到检查点屏障时,它将其在输入流中的位置保存到稳定存储中。如果输入流来自消息传输系统(Kafka 或 MapR Streams),这个位置就是偏移量。Flink 的存储机制是插件化的,稳定存储可以是分布式文件系统,如HDFS、S3 或 MapR-FS如图...
2019-03-12 19:30:02
9582
1
原创 关于es的缓存
本人在使用es查询的时候第一次用时46ms,连续第二次仅用了4ms,不由得想起了缓存,经查询资料得知:es有三种缓存:分别是query,fielddata和request 1、query cache 也称filter cache,作用是对一个查询中包含的过滤器执行结果进行缓存,满足了term, range过滤器的clause会被缓存(5.1.1版本term被...
2019-02-28 18:13:25
5611
原创 关于hive和sparksql中的转义符如何处理
问题:在做hive拼接json串的时候遇到了字符串中含有双引号,比如"key1":"我是"中国"人",解决:如果这样拼接的话会直接报错,这个时候需要转义符进行转义,而hive是对转义符转义三次,所以在hive里正确的写法是regexp_replace(字段名,'"','\\\\"') 在sparksql整合hive的时候,要用regexp_replace(字段名,'"...
2019-02-27 18:11:22
5174
1
原创 kafka0.10版本consumer的精确一次消费topic问题(sparkstreaming等程序重启后如何从原位置继续消费)
首先先给大家看一下kafka的三个重要的属性下面是这三个属性的组合以及分别表示的意义一、(enable.auto.commit:false) + (auto.offset.reset:latest):在Broker到Consumer之间实现了至多一次语义,因为不使用Kafka提供的自动保存offset功能,每次应用程序启动时,都是从Topic的末尾位置来获取消息。也就是说,应用...
2019-01-29 12:33:57
1527
2
原创 关于hive与es整合遇到的问题
1、Error while compiling statement: FAILED: SemanticException Generate Map Join Task Error: Unable to find class: org.elasticsearch.hadoop.hive.EsHiveInputFormat Serialization trace: inputFileFormatC...
2019-01-26 17:41:55
2168
转载 kafka0.9之前和之后管理偏移量的变化
在Kafka0.9版本之前消费者保存的偏移量默认是在zookeeper中/consumers/GROUP.ID/offsets/TOPIC.NAME/PARTITION.ID。也可以保存到mysql等其他工具中。0.9之后消费者不在保存偏移量到zookeeper中,而是kafka本身管理消费者的偏移量,kafka将偏移量保存在一个内部主题中“__consumer_offsets”,该主题默认有50...
2019-01-25 15:34:17
835
原创 关于structured streaming和flink中的watermark理解
structured streaming和flink中的watermark指的是一个意思,顾名思义,就是提高数据的水位线,下面以structured streaming为例,说说小编对watermark的理解1、如图所示,代表着每隔五分钟处理过去十分钟的数据,即窗口长度是十分钟,滑动间隔是五分钟,watermark的值是十分钟2、如图中,12:15~12:20这个batch获取的数据共...
2019-01-16 11:49:21
865
原创 关于 structuredstreaming消费kafka中的异常汇总
本人的spark是2.2.4的,kafka是0.10的,遇到了以下问题,后续会持续更新1、Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, Failed to find data source: kafka. Please find pac...
2019-01-11 18:18:12
1698
6
原创 关于spark跟es的版本兼容问题
刚开始用spark1.6跟es6.5.4结合,发现版本不兼容,经本人测试以及查询资料,es5之前支持spark1.x,es5之后支持spark2.x
2019-01-10 18:23:46
1821
原创 cdh5.x版本将spark1.6升级为spark2之后,hue执行spark2报错问题
Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, Library directory '/*/hue/appcache/application_1547098367136_0236/container_e32_1547098367136_02...
2019-01-10 16:36:57
704
原创 es的相关知识三(检查文档是否存在以及更新整个文档以及局部更新)
一、检索文档是否存在如果你想做的只是检查文档是否存在——你对内容完全不感兴趣——使用 HEAD 方法来代替 GET 。 HEAD 请求不会返回响应体,只有HTTP头:curl -i -XHEAD http://localhost:9200/{index}/{type}/{id}Elasticsearch将会返回 200 OK 状态如果你的文档存在:HTTP/1.1 2...
2019-01-07 16:42:52
1951
原创 es的相关知识二(检索文档)
一、es的使用1、检索文档:想要从Elasticsearch中获取文档,我们使用同样的 _index 、 _type 、 _id ,但是HTTP方法改为 GET :GET /{index}/{type}/{id}?pretty这里pretty的作用:在任意的查询字符串中增加 pretty 参数,类似于上面的例子。会让Elasticsearch美化输出(pretty-pr...
2019-01-07 16:28:13
571
原创 es中的相关知识一(基本知识和id的定义)
一、es中文档的元数据包括:1、_index: 索引(index)类似于关系型数据库里的数据库(database),事实上,我们的数据被存储和索引在分片(shards)中,索引知识把一个或多个分片分组在一起的逻辑空间,索引名字必须全部小写,不能以下划线开头,不能包含逗号。2、_type: 类型(type)类似于关系型数据库中的table,在es中我们用type表示...
2019-01-07 16:08:54
8613
1
原创 关于flink的重启策略学习
一、Flink支持不同的重启策略,这些重启策略控制着job失败后如何重启。集群可以通过默认的重启策略来重启,这个默认的重启策略通常在未指定重启策略的情况下使用,而如果Job提交的时候指定了重启策略,这个重启策略就会覆盖掉集群的默认重启策略。二、常用的重启策略 固定间隔 (Fixed delay) 对应的值:fixed-delay 失败率 (Failure rate)...
2019-01-03 15:57:43
438
原创 hadoop中执行关于hbase的mapreduce程序的问题
当把关于hbase的mapreduce程序写好上传到linux系统以后,执行hadoop jar XXX.jar会报java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter的异常,此时有两种解决方案:1、在hadoop的hadoop-env.sh中配置 export HADOOP_CLASSPATH=$HBASE_H...
2018-06-04 21:15:52
455
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人