
大数据
文章平均质量分 71
kingdom♚蓝调
这个作者很懒,什么都没留下…
展开
-
flume的部署及简单测试
Flume 的一些核心概念:组件功能Agent使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。Client生产数据,运行在一个独立的线程。Source从Client收集数据,传递给Channel。Sink原创 2015-10-24 18:28:47 · 587 阅读 · 0 评论 -
centos7.3/4安装ambari2.6以上版本报EOF occurred in violation of protocol (_ssl.c:579)
错误:ERROR 2018-05-30 00:12:25,280 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)ERROR 2018-05-30 00:12:25,280 NetUtil.py:97 - SSLError: Failed to connect. Please check openssl libra...原创 2018-06-01 12:07:56 · 12441 阅读 · 4 评论 -
org.apache.thrift.protocol.TProtocolException: Required field 'sessionHandle' is unset! Struct:TExec
原因可能是hive的beeline环境变量换成了spark或者其他东西,检查一下环境变量原创 2017-10-17 10:05:37 · 2871 阅读 · 0 评论 -
部署azkaban报错:Unrecognized SSL message, plaintext connection?
javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:671)at sun.security.ssl.InputRecord.read(InputRecord原创 2017-06-13 15:45:42 · 8389 阅读 · 0 评论 -
azkaban上传时卡在那不动
这是因为你的你的job依赖层数太多引起的,一般到8层的时候上传就很慢了,因为azkaban会把你上传的文件解析成图边的数据存起来。 解决办法:使用flowflow_1.job:type=flowflow.name=hive_label_1your.jobtype=commandcommand=sh /path/shell.shdependenc原创 2017-06-30 11:35:31 · 650 阅读 · 0 评论 -
hive提取等号后面的值
hive提取等号后面的值parse_url(concat('http://www.XXXXX.com?',refkv), 'QUERY','keyword')keyword为要提取的字段,,前面url随便拼,但必须有http://原创 2017-03-31 16:54:50 · 1625 阅读 · 0 评论 -
启动mapreduce任务失败会报一下错误:
2016-12-30 14:38:04,575 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exception from container-launch with container ID: container_1483067971419_0004_02_000001 and exit code原创 2016-12-30 14:55:55 · 1074 阅读 · 0 评论 -
elasticsearch由于数据特别长而找不到数据
这是由于mapping中string类型中ignore_above长度的限制ignore_above对超过 ignore_above 的字符串,analyzer 不会进行处理;所以就不会索引起来。导致的结果就是最终搜索引擎搜索不到了。这个选项主要对not_analyzed 字段有用,这些字段通常用来进行过滤、聚合和排序。而且这些字段都是结构化的,所以一般不会允许在这些字段中索引原创 2016-06-07 11:52:19 · 7702 阅读 · 1 评论 -
用mapreduce程序将hive写数据到hbase慢的解决办法
项目中可能会有将hive的数据同步到hbase的需求,但是有时mapreduce程序写数据会非常慢,也有可能会出现数据倾斜问题。这时就要对mapreduce程序进行优化了。 首先确定调大reduce个数,比如从5个调大到10个,如果还不能有效的加快速度。就需要在mapreduce程序中将hive中大量的空过滤掉,这部分特别耗资源,也会引起数据倾斜。这部分空到hbase中也没用,过滤原创 2016-03-31 17:51:49 · 1534 阅读 · 0 评论 -
kafka及zookeeper安装部署
因为kafka启动依靠zookeeper所以博主先配置zookeeperzookeeper部署Step1:以root账号登陆,创建shaka用户[root@localhost home]# useradd shaka[root@localhost home]# passwd shaka Step2:切换为shaka账号[shaka@localhost ~]$ su -原创 2015-10-24 19:58:59 · 592 阅读 · 0 评论 -
presto报Request Header Fields Too Large
错误信息如下:### Cause: java.sql.SQLException: Error executing query; uncategorized SQLException; SQL state [null]; error code [0]; Error executing query; nested exception is java.sql.SQLException: Erro...原创 2018-09-21 17:56:39 · 2894 阅读 · 0 评论