大数据小蜗牛-优快云博客

原创关于搭建CDH中遇到的问题

本人搭建的cdh版本是5.10.1，服务器的版本是redhat 7.4,在搭建cdh的过程中遇见了下列问题，分享出来给大家参考参考一、CDH搭建成功以后，安装服务的过程中突然崩溃的步骤：解决： 1> 删除Agent节点的UUID # rm -rf /opt/cm-5.4.7/lib/cloudera-scm-agent/* 2>...

2018-12-29 09:59:31 877 2

原创关于java连接kudu或者flume的kudusink的异常汇总

1、Caused by: org.apache.kudu.client.NonRecoverableException: Could not connect to a leader master. Client configured with 1 master(s) (xxxx:7051) but cluster indicates it expects 3 master(s) (xxx,xxx,...

2020-01-16 11:54:45 1699

原创 spark2.2 批量往es7.1.1中插入数据的时候问题

报的错为：Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, org.elasticsearch.spark.deploy.yarn.security.EsServiceCredentialProvider.credentialsRequir...

2019-09-05 18:22:02 1425

原创 HashMap、HashTable、ConcurrentHashMap、TreeMap的区别

1、HashMap：实现了Map接口，允许一个NULL键和多个NULL值，是非线程安全的，当出现多线程操作时就涉及到了数据的同步问题，可以通过使用Collections.synchronizedMap(Map<K,V> m)方法来从HashMap中获取线程安全的Map，但是这个synchronized会锁住整个HashMap，意味着会效率低，2、HashTable：...

2019-07-03 14:19:30 933

原创关于java和scala当中HashMap的原理总结

HashMap是基于数据结构哈希表的原理，在jdk1.8之前底层的存储结构是数组加链表，在jdk1.8包括1.8之后存储结构是数组加链表或者红黑树。1、put（）：当调用put方法往hashmap里存放对象的时候，首先会将这个key-value键值对实例化成一个Entry对象，然后会调用key的hashCode()方法，取得hash值之后，会根据hash值与数组的长度取模的结果找到其应该存放的...

2019-06-13 15:19:12 1525

原创 flink的检查点（checkpoint）和保存点（savepoint）的区别

一、检查点：检查点屏障跟普通记录一样。它们由算子处理，但并不参与计算，而是会触发与检查点相关的行为。会在算子之间流动。当读取输入流的数据源遇到检查点屏障时，它将其在输入流中的位置保存到稳定存储中。如果输入流来自消息传输系统（Kafka 或 MapR Streams），这个位置就是偏移量。Flink 的存储机制是插件化的，稳定存储可以是分布式文件系统，如HDFS、S3 或 MapR-FS如图...

2019-03-12 19:30:02 9687 1

原创关于es的缓存

本人在使用es查询的时候第一次用时46ms，连续第二次仅用了4ms，不由得想起了缓存，经查询资料得知：es有三种缓存：分别是query,fielddata和request 1、query cache 也称filter cache，作用是对一个查询中包含的过滤器执行结果进行缓存，满足了term, range过滤器的clause会被缓存(5.1.1版本term被...

2019-02-28 18:13:25 5693

原创关于hive和sparksql中的转义符如何处理

问题：在做hive拼接json串的时候遇到了字符串中含有双引号，比如"key1":"我是"中国"人"，解决：如果这样拼接的话会直接报错，这个时候需要转义符进行转义，而hive是对转义符转义三次，所以在hive里正确的写法是regexp_replace(字段名,'"','\\\\"') 在sparksql整合hive的时候，要用regexp_replace(字段名,'"...

2019-02-27 18:11:22 5296 1

原创 kafka0.10版本consumer的精确一次消费topic问题（sparkstreaming等程序重启后如何从原位置继续消费）

首先先给大家看一下kafka的三个重要的属性下面是这三个属性的组合以及分别表示的意义一、(enable.auto.commit:false) + （auto.offset.reset:latest）：在Broker到Consumer之间实现了至多一次语义，因为不使用Kafka提供的自动保存offset功能，每次应用程序启动时，都是从Topic的末尾位置来获取消息。也就是说，应用...

2019-01-29 12:33:57 1599 2

原创关于hive与es整合遇到的问题

1、Error while compiling statement: FAILED: SemanticException Generate Map Join Task Error: Unable to find class: org.elasticsearch.hadoop.hive.EsHiveInputFormat Serialization trace: inputFileFormatC...

2019-01-26 17:41:55 2206

转载 kafka0.9之前和之后管理偏移量的变化

在Kafka0.9版本之前消费者保存的偏移量默认是在zookeeper中/consumers/GROUP.ID/offsets/TOPIC.NAME/PARTITION.ID。也可以保存到mysql等其他工具中。0.9之后消费者不在保存偏移量到zookeeper中，而是kafka本身管理消费者的偏移量，kafka将偏移量保存在一个内部主题中“__consumer_offsets”，该主题默认有50...

2019-01-25 15:34:17 893

原创关于structured streaming和flink中的watermark理解

structured streaming和flink中的watermark指的是一个意思，顾名思义，就是提高数据的水位线，下面以structured streaming为例，说说小编对watermark的理解1、如图所示，代表着每隔五分钟处理过去十分钟的数据，即窗口长度是十分钟，滑动间隔是五分钟，watermark的值是十分钟2、如图中，12:15～12:20这个batch获取的数据共...

2019-01-16 11:49:21 925

原创关于 structuredstreaming消费kafka中的异常汇总

本人的spark是2.2.4的，kafka是0.10的，遇到了以下问题，后续会持续更新1、Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, Failed to find data source: kafka. Please find pac...

2019-01-11 18:18:12 1750 6

原创关于spark跟es的版本兼容问题

刚开始用spark1.6跟es6.5.4结合，发现版本不兼容，经本人测试以及查询资料，es5之前支持spark1.x，es5之后支持spark2.x

2019-01-10 18:23:46 1890

原创 cdh5.x版本将spark1.6升级为spark2之后，hue执行spark2报错问题

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, Library directory '/*/hue/appcache/application_1547098367136_0236/container_e32_1547098367136_02...

2019-01-10 16:36:57 739

原创 es的相关知识三（检查文档是否存在以及更新整个文档以及局部更新）

一、检索文档是否存在如果你想做的只是检查文档是否存在——你对内容完全不感兴趣——使用 HEAD 方法来代替 GET 。 HEAD 请求不会返回响应体，只有HTTP头：curl -i -XHEAD http://localhost:9200/{index}/{type}/{id}Elasticsearch将会返回 200 OK 状态如果你的文档存在：HTTP/1.1 2...

2019-01-07 16:42:52 2059

原创 es的相关知识二（检索文档）

一、es的使用1、检索文档：想要从Elasticsearch中获取文档，我们使用同样的 _index 、 _type 、 _id ，但是HTTP方法改为 GET ：GET /{index}/{type}/{id}?pretty这里pretty的作用：在任意的查询字符串中增加 pretty 参数，类似于上面的例子。会让Elasticsearch美化输出(pretty-pr...

2019-01-07 16:28:13 610

原创 es中的相关知识一(基本知识和id的定义)

一、es中文档的元数据包括：1、_index: 索引（index）类似于关系型数据库里的数据库（database），事实上，我们的数据被存储和索引在分片（shards）中，索引知识把一个或多个分片分组在一起的逻辑空间，索引名字必须全部小写，不能以下划线开头，不能包含逗号。2、_type: 类型（type）类似于关系型数据库中的table，在es中我们用type表示...

2019-01-07 16:08:54 9044 1

原创关于flink的重启策略学习

一、Flink支持不同的重启策略，这些重启策略控制着job失败后如何重启。集群可以通过默认的重启策略来重启，这个默认的重启策略通常在未指定重启策略的情况下使用，而如果Job提交的时候指定了重启策略，这个重启策略就会覆盖掉集群的默认重启策略。二、常用的重启策略固定间隔 (Fixed delay) 对应的值：fixed-delay 失败率 (Failure rate)...

2019-01-03 15:57:43 473

原创关于Spark的问题

后续会持续补充1、spark2.0以后，spark的yarn-cluster的提交方式被遗弃

2018-12-29 10:00:36 162

原创 hadoop中执行关于hbase的mapreduce程序的问题

当把关于hbase的mapreduce程序写好上传到linux系统以后，执行hadoop jar XXX.jar会报java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter的异常，此时有两种解决方案：1、在hadoop的hadoop-env.sh中配置 export HADOOP_CLASSPATH=$HBASE_H...

2018-06-04 21:15:52 478

qq_40651753的博客