
大数据运维
a904364908
白了头.
展开
-
Flume采集rsync同步文件,有重复数据,解决方案
最近线上做测试,因为有服务布在公网云,kafka和hadoop集群布在私有云.所以想采用flume->kafka->flume->hadoop方案,将公有云的服务日志收集到hadoop集群.因为公有云上服务布的节点节点比较多,所以采用rsync方式,将所有应用日志采集到一台服务器上.再用flume做采集.开始flume使用agent.sources.s1.type = TAILDIR的方式,将日志发送过去以后,发现日志有重复数据.排查以后发现,rsync用了 -avz 参数, 网上查原创 2021-01-21 12:35:55 · 997 阅读 · 0 评论 -
clickhouse系列之二:clickhouse遇到的报错问题及解决方法
问题一,启动报错启动参数:sudo clickhouse-server --config-file=/etc/clickhouse-server/config.xml2020.08.20 18:49:28.189321 [ 29338 ] {} <Error> Application: DB::Exception: Effective user of the process (root) does not match the owner of the data (clickhouse). R原创 2020-08-20 19:10:38 · 38617 阅读 · 1 评论 -
clickhouse系列之一: clickhouse简介与安装
Clickhouse 简介Clickhouse 是一个开源的面向联机分析处理(OLAP, On-Line Analytical Processing)的列式存储数据库管理系统。Clickhouse 的优势:- 写入快、查询快- SQL 支持- 简单方便,不依赖 Hadoop 技术栈- 支持线性扩展- 深度列存储- 向量化查询执行- 数据压缩- 并行和分布式查询- 实时数据更新Clickhouse 的不足:- 不支持事务- 不适合典型的 K/V 存储- 不适合 Blob/Do..原创 2020-08-13 17:03:05 · 586 阅读 · 0 评论 -
HBase完全分布式搭建
前言HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处...原创 2019-04-21 17:52:23 · 318 阅读 · 0 评论 -
sqoop导入hive警告WARN TableDefWriter:Column height had to be cast to a less precise type in Hive
最近在进行用sqoop将业务表数据导入到hive,在导入的时候发现一直在报一个WARN,WARN TableDefWriter:Column height had to be cast to a less precise type in Hive. 具体日志贴图.看到报警以后,查看了hive表的数据,发现数据并没有丢失,又查看了hive表结构,发现很多字段的数据类型发生了改变.在进行表导入的时候...原创 2019-05-24 22:37:01 · 2014 阅读 · 0 评论 -
Azkaban的简介和安装(3.47.0版本,两个服务模式安装)
Azkaban简介官网: https://azkaban.github.io/Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点:Web用户界面方便上传工作流...原创 2019-06-08 23:46:50 · 573 阅读 · 0 评论 -
Azkaban的简单实战案例
Azkaban安装成功以后就可以进行任务调度了,这里简单演示几个调度任务。单一job示例创建文本文件,更改名称为mycommand.job内容如下type=commandcommand=echo 'hello world'将job资源打包成zip文件通过azkaban的web管理平台创建project并上传job压缩包首先创建project上传zip包启动执行job...原创 2019-06-14 22:20:00 · 220 阅读 · 0 评论 -
spark读取MySQL的方式及并发度优化
前段时间用sparksession读取MySQL的一个表的时候,出现耗时长,频繁出现oom等情况,去网上查找了一下,是因为用的默认读取jdbc方式,单线程任务重,所以出现耗时长,oom等现象.这时候需要提高读取的并发度.现简单记录下.看sparsession DataFrameReader源码,读取jdbc有三个方法重载.单partition,无并发def jdbc(url: String,...原创 2019-07-07 16:47:20 · 4623 阅读 · 1 评论