
bigdata
文章平均质量分 66
江畔独步
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ClickHouse的安装
下载地址https//repo.clickhouse.tech/rpm/stable/x86_64/的注释打开,这样的话才能让ClickHouse被除本机以外的服务器访问。在这个文件中,有ClickHouse的一些默认路径配置,比较重要的。官网https//clickhouse.yandex/注意如果安装过zabbix,需要禁用一些服务的开机自启。-m可以在命令窗口输入多行命令。在dn4、dn5上执行以上操作。......原创 2022-07-19 16:54:02 · 998 阅读 · 0 评论 -
Phoenix5连接Hbase2.x长时间卡住(但不报错)
执行上述命令,启动phoenix, 长时间卡住, 但不报错:可能的原因有:经查询, 上述原因的1、3都不是我这边的触发原因.考虑到此前我本地通过ClouderaManager, 已经安装过parcels版本的hbase(版本号: 1.2.0+cdh5.16.2).新安装的2.x版本, 可能与老版本在元数据上并不兼容.由于本地是使用VMWare搭建的虚拟机集群, 且hbase数据仅用于实验目的. 故采用暴力方式处理(如果是prod, 且hbase中已经存储了重要数据, 请仔细查找直接原因, 同时做好数据备份原创 2022-07-13 18:18:03 · 1853 阅读 · 0 评论 -
Flume 数据采集
(1)在/home/bigdata_admin/bin目录下创建脚本xcall.sh[bigdata_admin@hadoop102 bin]$ vim xcall.sh(2)在脚本中编写如下内容(3)修改脚本执行权限[bigdata_admin@hadoop102 bin]$ chmod 777 xcall.sh(4)启动脚本[bigdata_admin@hadoop102 bin]$ xcall.sh jps1)安装步骤略2)项目经验(1)项目经验之HDFS存储多目录虚拟机的项目不需要配置,我们只原创 2022-07-12 14:26:25 · 3911 阅读 · 0 评论 -
Maxwell配置案例
以下环境需要提前在VMWare虚拟机中搭建完成:设置软链接:新建日志目录:1.2 数据库相关信息(数据源)数据库编号数据库名称数据库IP数据库PORT备注1maxwell111.111.111.1113306Maxwell元数据库, binlog : master.0000012gmall111.111.111.1123306业务数据库(在线商城)1.3 Kafka相关信息(数据落地)MQ编号MQ 列表1dn3:9092,d原创 2022-07-12 12:00:34 · 2556 阅读 · 0 评论 -
Sqoop设置Debug输出
方案 一:export HADOOP_ROOT_LOGGER=DEBUG,console方案 二:2.1 sqoop 命令添加冗余内容参数即在sqoop 命令中添加 --verbose 配置项,将 sqoop 日志调整为 debug 级别2.2 sqoop 命令参数加上以下参数-Dmapreduce.map.log.level=DEBUG -Dmapreduce.reduce.log.level=DEBUG -Dyarn.app.mapreduce.am.log.level=DEBUG原创 2022-02-14 17:36:50 · 1312 阅读 · 0 评论 -
Azkaban任务流批量修改调优参数
一、背景在azkaban调度流程中,flow(工作流)可能经常由于机器性能,如网络、内存、cpu负载等问题导致当时那个时间点下任务执行不成功。如果没有添加任务失败的重试机制,则下游的flow因上游失败而无法获取执行机会,换言之,调度失败的flow及其之后的flow都将无法正常执行。比如ETL流程中的sqoop数据抽取脚本,假如一个库中有50个表需要抽取,如果用户为该调度配置了50个flow,则由于上述不可控的原因,造成中间某些节点执行中断,则中断节点及其之后的节点都将执行失败。如果在失败后,我们能添原创 2021-06-02 10:13:11 · 887 阅读 · 0 评论 -
Maxwell “Couldn‘t find database mysql“问题排查
一、issue描述最近,prod 环境一个mysql的binlog数据抽取maxwell进程被prometheus监控到,其运行出现问题,监控显示,该进程频繁的挂掉。由于maxwell实例服务做了systemct服务管控,会在程序挂掉20秒后自动将其拉起。究其原因,猜测可能maxwell进程因故障启动不起来,又被systemct服务拉起,周而复始,被prometheus监控为频繁重启。通过查看服务日志,看到如下报错:[root@server-xx system]# journalctl -xef原创 2021-04-14 10:48:30 · 3524 阅读 · 1 评论 -
解决“Spark context stopped while waiting for backend“ issue
在配置为4C8G的虚拟机上安装hadoop生态全家桶,在安装Spark2,使用了社区版2.3的版本。安装完毕后,使用spark2自带的样例程序 org.apache.spark.examples.SparkPi 测试了下,结果报了如下错误:Spark context stopped while waiting for backend完整报错日志如下:2021-03-12 15:05:32 INFO ShutdownHookManager:54 - Deleting directory /tmp/s原创 2021-03-15 11:33:16 · 6626 阅读 · 0 评论 -
maxwell filter及替代方式使用小结
实验结论:1、filter参数只能配在cmd中,且include只能包含一张表(结论:wrong)bin/maxwell --config company_custom_config/ssl_user_kafka.properties --filter="exclude:ssl-user.*, include:ssl-user.u_user_union"2、先排除所有数据,只保留特定库下的一张表 (结论:right)bin/maxwell --config company_custom_conf原创 2021-03-09 19:20:51 · 3153 阅读 · 2 评论 -
Prometheus客户端工具process-exporter监控进程是否存在
Prometheus客户端工具process-exporter,可以用来监控进程是否存在,其使用非常方便。下载客户端软件:process-exporter-0.5.0.linux-amd64.tar.gz解压:tar -xzf process-exporter-0.5.0.linux-amd64.tar.gz创建软链接:ln -s process-exporter-0.5.0.linux-amd64 process-exporter编辑配置文件:vim process-cfg-maxwell原创 2021-03-09 18:40:58 · 2630 阅读 · 1 评论 -
一种Linux /根空间不足的解决方案
CDH集群所在的服务器,为云服务主机,其中namenode所在的cdh01节点上的磁盘分布如下:[root@cdh01 sys_disk_mirror]# df -hFilesystem Size Used Avail Use% Mounted on/dev/vda1 40G 28G 9.9G 74% /devtmpfs 32G 0 32G 0% /devtmpfs 32G 0 32G 0% /原创 2021-03-04 09:53:19 · 590 阅读 · 1 评论 -
Kafka常用命令(基于CDH5.x版本)
一. 背景CDH集群的parcels安装包里,已经内置了Kafka服务,用户安装kafka集群时,无需下载apache社区版, 即可在cloudera manager里进行开箱即用的集群安装, 如下:但是在具体使用过程中, CDH版的kafka命令与apache社区版还是有较大的不同.CDH版kafka命令, 主要有以下几类:命令名称说明kafka-topicskafka topic的CURD + describekafka-console-producerkafka原创 2021-01-02 13:38:57 · 622 阅读 · 0 评论 -
CDH5.x kafka命令解释
一. kafka版本信息我的测试环境的CDH版本:版本: Cloudera Express 5.16.2 (#7 built by jenkins on 20190518-0557 git: fedcd738d6af67bc26077f7ad53b03ea9dafa2f0)Java VM 名称: Java HotSpot™ 64-Bit Server VMJava 版本: 1.8.0_65服务器时间: 2020-11-20 16:57:02, 中国标准时间 (CST)版权所有 © 2011-原创 2020-11-20 17:22:50 · 494 阅读 · 0 评论 -
Azkaban2.5安装部署
一. 软件下载重要说明:当前, 官方已不再提供二进制安装包下载服务, 需要使用提提供的源码进行编译、打包方式生成二进制文件, 再进行部署安装.在2.x版本中, azkaban是使用ant进行编译打包, 而在3.x的很多版本, 演变为使用gradle编译打包, 在做源码编译打包时需要事先构建相应的打包环境.源码下载地址:https://azkaban.github.io/downloads.html2.5.0源码下载地址:https://codeload.github.com/azkaban原创 2020-11-20 15:22:12 · 493 阅读 · 0 评论 -
基于bitmap实现用户画像的标签圈人功能
用户画像系统中有一个很重要的功能点: 基于标签圈人。这里有个很核心的概念,什么是标签?标签是简化用户表示的一种思维方式。 刻画用户的标签越多,用户画像就越立体。 比如:90后,码农,宅男 3个标签就刻画了一类人。标签类似于戏曲中的脸谱来表现人物的性格和特征。标签有哪些类型呢?枚举类标签: 描述性别,地理位置。这类标签取值通常是可枚举出来的。时间类标签: 描述业务触达和流失时间信息。...转载 2019-09-16 14:20:56 · 4397 阅读 · 1 评论 -
Centos7 安装部署 CDH6.1.0 手册
目录一、CDH6简介 4CDH6支持的组件列表: 4二、CDH6安装前环境准备 51、CM6.1.0以及CDH6.1.0的安装: 52、CM & CDH Parcel包准备 53、创建CM & CDH组件存储库 64、 在主节点配置CDH6.1.0二进制Parcel仓库 65、 配置yum仓库 66、每台服务器进行系统环境设置: 7A).安装...原创 2019-08-05 11:37:52 · 2267 阅读 · 0 评论 -
为Elasticsearch安装中文分词IK
原文地址: http://www.mamicode.com/info-detail-439214.html注:Elasticsearch版本:1.4.4一、安装与配置1.从https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch-analysis-ik-master.zip注意,下转载 2016-11-04 15:33:27 · 432 阅读 · 0 评论 -
MacOS10.10 安装Hue3.9填坑记
闲来无事在mac小本上折腾安装一下cdh5.7, hadoop组件安装完成后, 想着把hue也一并装了吧, 这个软件环境也是醉了. 不曾想hadoop组件的安装很快就搞定的事, 到了hue这, 愣是花费数个钟头, 说多了都是泪啊.由于cdh本人安装的是5.7版本, 去cloudera官网查了下, 如果安装HUE, 大致可以匹配的版本是hue-3.9.0-cdh5.7.1.tar.gz, 遂下载下来原创 2016-11-30 20:20:48 · 2098 阅读 · 0 评论 -
hue3.9 集成 hive1.1.0
hue3.9 中集成 hive1.1.0数据仓库, 主要包括hive端的配置, 和hue端的配置, 和hadoop端的配置三部分.1. hive端配置(mysql 做 metastore) a). 删除掉 hadoop mapreduce lib目录下的jline jar包, 将hive lib库下的jline jar包拷贝过去. b). hive lib目录下添加mysql的驱动包.原创 2016-12-01 18:06:59 · 1209 阅读 · 1 评论 -
HIVE精华汇总帖
原文: http://geek.youkuaiyun.com/news/detail/126543【编者按】Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。在攒库中,Hive也不负众望,得到了非常高的票数。为此,优快云知识库特邀社区专家蒋守壮(博客:http://blog.csdn转载 2016-12-02 11:33:48 · 580 阅读 · 0 评论 -
flume+kafka+spark streaming日志流式处理系统搭建实验
大约2/3年前,基于flume,kafka,storm架构的流式处理系统几乎成为成为业界事实上的标准。时至今日,它依然在流处理方面有着广泛的应用场景。伴随着spark的强势崛起,其内置的spark streaming也随着spark的快速版本迭代,逐渐变的稳定和易用。尽管spark steaming以batch方式作为最小统计单位(非storm以条作为组合单位),和最小统计时间依然徘徊在亚秒级等先天原创 2017-03-08 18:08:26 · 7018 阅读 · 0 评论 -
Drill关键字
“ALTER” … “SET” … “RESET” … “WITH” … “+” … “-” … … … … … … … … “TRUE” … “FALSE” … “UNKNOWN” … “NULL” … …原创 2017-06-16 11:38:35 · 876 阅读 · 0 评论 -
安装使用Drill-1.10
准备材料:jdk-8u121-linux-x64.rpm (运行Drill1.6及其后续版本需要jdk7或8)apache-drill-1.10.0.tar.gzzookeeper-3.4.6hadoop2.x cluster 安装jdk:不再赘述一、安装、配置drill:①、解压、安装tar -xzvf apache-drill-1.10.0.tar.gzcp -r apache原创 2017-06-08 10:58:28 · 2276 阅读 · 0 评论 -
Drill 内存设置
你可以在任何Drill集群上,为查询处理的Drillbit进程,配置直接内存的大小。Drillbit进程默认的内存大小是8G,但是Drill推荐根据负载大小,设置16G及以上的内存。Drillbit进程分配给查询操作的直接内存大小不能超过这个参数值。这里插入一下“直接内存”的释义: 直接内存不是jvm运行时数据区的一部分,也不是java虚拟机规范中定义的内存区域,但是这部分内存也被频繁的使用,而翻译 2017-06-14 11:05:19 · 1510 阅读 · 0 评论 -
sqoop1命令浅用
sqoop2提供了关系型数据库与hdfs(含hive,hbase)进行数据互相传输的功能。Available commands: codegen Generate code to interact with database records create-hive-table Import a table definition into Hive ev原创 2017-06-21 10:07:47 · 1104 阅读 · 1 评论 -
Centos7.2安装CDH5.7.2操作手册
软件准备jdk-8u121-linux-x64.rpm cloudera-manager-centos7-cm5.7.2_x86_64.tar.gzCDH-5.7.2-1.cdh5.7.2.p0.18-el7.parcelCDH-5.7.2-1.cdh5.7.2.p0.18-el7.parcel.sha 更改为sha后缀manifest.jsonmysql57-community-rel原创 2017-06-09 19:54:20 · 543 阅读 · 0 评论 -
Apache Kylin Cube 构建原理
转载于: http://blog.bcmeng.com/post/kylin-cube.html谢谢原作者分享作者: 康凯森日期: 2016-10-06分类: OLAPApache Kylin 是什么OLAP 是什么Kylin如何实现超大数据集的秒级多维分析查询Kylin的预计算是如何实现的Cube 和 Cuboid是什么Cuboid 的维度转载 2017-07-21 17:12:03 · 2328 阅读 · 0 评论 -
[转]Quorum JournalNode作用(hadoop1.x与hadoop2.x对比)
转载自:https://blog.youkuaiyun.com/bocai8058/article/details/78843608致谢,如转载请附上原文出处.文章目录概述hadoop 1.x与2.x针对性对比硬件资源要求概述HA(High Available),高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。两个NameNode为了数据同步,会...转载 2019-01-01 11:13:44 · 243 阅读 · 0 评论 -
centos7安装flink1.7.2(standalone cluster HA模式)
目录一、服务规划 1.1 Requirements list: 1.2 Server部署角色列表: 1.3 部署方式 二、软件准备 1、 下载合适的Flink版本 三、 安装flink 1、 创建my_admin用户 2、3节点两两免密配置 3、解压flink安装文件 4、hdfs支撑...原创 2019-05-21 20:43:45 · 1898 阅读 · 0 评论 -
编译apache hadoop3.0.2
编译apache hadoop3.0.20、软件准备1、编译环境准备1.1 maven配置1.2 protobuf编译安装1.3 CMake3安装1.4 编译aws模块找不到依赖Jar包2、开始编译2.1 编译命令2.2 编译结果0、软件准备JDK1.8apache-maven-3.6.1(needs 3.3+)hadoop-3.0.2-src 源码(下载地址:https://mirro...原创 2019-06-25 19:50:53 · 908 阅读 · 1 评论 -
fuse_dfs挂载HDFS到本地
背景:希望通过挂载方式,能够像使用本地文件系统一样,访问与操作hdfs数据。同时为容灾,可以考虑进行hdfs的数据备份。以下操作依赖hadoop3.x源码项目提前编译好:传送门:编译apache hadoop3.0.2一、构建工具包构建一个fuse_dfs_tools工具包,后续将使用该工具包进行hdfs与本地磁盘的挂载。工具包目录结构如下:f...原创 2019-06-26 14:03:15 · 1667 阅读 · 0 评论 -
hadoop、spark、flink集群修改默认ssh端口号
大数据集群在实际搭建过程中,其默认ssh端口不一定都是22,这时需要根据各自的配置文件进行适配。ssh端口号默认为22,以centos7.x为例,可以在/etc/ssh/sshd_config中进行修改,如下示例将22改为22222:# If you want to change the port on a SELinux system, you have to tell# SELinux ...原创 2019-06-27 18:09:18 · 4611 阅读 · 0 评论 -
Elasticsearch集群的脑裂问题
原文地址: http://blog.youkuaiyun.com/cnweike/article/details/39083089, 致谢所谓脑裂问题(类似于精神分裂),就是同一个集群中的不同节点,对于集群的状态有了不一样的理解。今天,Elasticsearch集群出现了查询极端缓慢的情况,通过以下命令查看集群状态:curl -XGET 'es-1:9200/_cluster/转载 2016-11-04 10:35:25 · 455 阅读 · 0 评论