
大数据
文章平均质量分 73
码道功成
自我感觉有点笨,总是嫌大牛们写的东西不够详细,所以本人写的博客会尽量通俗易懂~
展开
-
starrocks的fe节点启动不起来的解决办法
fe节点启动报错:Do not specify the helper node to FE itself. Please specify it to the existing running Leader or Follower FE。4、启动该节点:./bin/start_fe.sh --helper fe_leader_ip:9010 --daemon。1、先删除掉该fe节点:ALTER SYSTEM DROP FOLLOWER "host:edit_log_port"原创 2024-04-10 15:11:30 · 1207 阅读 · 0 评论 -
DolphinScheduler 补数
在工作流实例里也可以看到调度的情况,默认是调度时间范围内的每天8点,这是因为我的定时任务下线了,按照ds默认的时间,当然我这是T+1的,至于哪个时间点执行都无所谓了。不过这里要注意的一点是我的数仓是T+1的,所以启动参数传的是当前时间的前一天,那调度日期选择23号到25号,其实最后跑的数是22号到24号的数据。也就是如果要补 23号到25号的数 ,调度时间这里要选择24号到26号;2、选择要补数的日期范围,选择补23号到25号的数;需要注意的就是上图中的1和2;选择好时间后,点击“确定”即可;原创 2024-03-20 15:36:13 · 1281 阅读 · 0 评论 -
flink1.14.5使用CDH6.3.2的yarn提交作业
使用CDH6.3.2安装了hadoop集群,但是CDH不支持flink的安装,网上有CDH集成flink的文章,大都比较麻烦;但其实我们只需要把flink的作业提交到yarn集群即可,接下来以CDH yarn为基础,flink on yarn模式的配置步骤。原创 2024-01-15 14:13:11 · 1887 阅读 · 0 评论 -
Linux环境下运行selenium4.14
2) 根据谷歌浏览器版本下载对应的浏览器驱动版本。(这个页面里是高版本的驱动)1)运行下面命令查看浏览器版本。(这个页面是低版本的驱动)原创 2023-10-31 16:41:56 · 1631 阅读 · 0 评论 -
python爬虫报错:This version of ChromeDriver only supports Chrome version 114
它是一个开源的Java库,以完全自动化的方式执行Selenium WebDriver所需的驱动程序的管理(即下载、设置和维护)。其最新版本提供了其他相关功能,如发现本地系统中安装的浏览器的能力,无缝运行Docker容器中的浏览器,以及监控能力,废话不多说,直接上代码。然后,使用浏览器版本,它试图通过各种方法找到合适的驱动程序版本。修改Python代码,添加executable_path参数,指定浏览器驱动路径。这里下载浏览器对应的驱动,可是我的浏览器是117版本的,这里面根本找不到。2)换浏览器驱动版本;原创 2023-10-30 14:58:26 · 1758 阅读 · 0 评论 -
使用docker-compose安装flume
使用flume采集应用服务器(华为云)上的日志信息,但运维同学为了方便管理资源,要求使用docker-compose方式安装。而官方docker仓库中的flume不是最新版的,所以打算自己构建flume镜像。 flume依赖于jdk,所以安装flume的容器需要有jdk;那么首先构建一个基于centos7的jdk1.8的镜像centos7-jdk1.8;然后基于镜像centos7-jdk1.8构建安装的flume镜像flume;最后再使用docker-compose安装容器。一、构建centos7-jd原创 2022-05-13 17:29:11 · 1588 阅读 · 4 评论 -
flume使用HDFS Sink将数据导入到Hive中
整体流程:avro Source获取数据,然后通过SPILLABLEMEMORY channel,再然后使用hdfs sink将数据落地到hdfs中,最后通过调度系统执行脚本导入到hive中。最初是打算使用hive sink的,但是使用开发过程中遇到各种坑,各种莫名其妙的错误,最终放弃。1、flume.conflogger.sources = r1logger.sinks = k1logger.channels = c1# Describe/configure the sourcelog原创 2022-04-26 10:40:17 · 2333 阅读 · 0 评论 -
Ambari2.75集成flink-1.14.4
ambari集成flink详情可参考:Ambari 2.7.5安装Flink1.13.2_不饿同学的博客-优快云博客_ambari安装flink这里说一下安装过程遇到的问题:1、安装时报错:Error: Error: Unable to run the custom hook script ['/usr/bin/python', '/var/lib/ambari-agent/cache/stack-hooks/before-ANY/scripts/hook.py', 'ANY', ...原创 2022-03-25 16:10:03 · 5711 阅读 · 0 评论 -
log4j+flume+kafka实时日志处理
将项目中的日志使用log4j打印,然后使用avro方式,收集到flume,最后输出到kafka。flume官方提供了两种方式接受log4j输入源的方式:Log4J Appender和Load Balancing Log4J Appender,flume详情可查看官网:Welcome to Apache Flume — Apache Flume。一、appender1)Log4J Appender参数解释Property Name Default Descripti......原创 2022-03-24 14:10:06 · 2287 阅读 · 0 评论 -
hive数仓数据跨集群迁移
当前集群是在局域网环境,按要求要迁到阿里云集群上(阿里云的服务器,自己搭建的大数据集群),所以要把hive中的数仓数据迁移到新的集群上。前提hive有export和import命令(该功能是从hive0.8开始才有的),可以将hive表中的表结构和数据导入和导出。1、export命令EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path'2、import命令原创 2022-01-14 11:50:23 · 2338 阅读 · 0 评论 -
Sqoop常见问题
1、sqoop从MySQL导入数据到hive时,报:20/09/18 11:20:33 INFO mapreduce.Job: Job job_1600395587790_0002 failed with state FAILED due to: Application application_1600395587790_0002 failed 2 times due to AM Container for appattempt_1600395587790_0002_000002 exited wit原创 2021-12-21 16:30:36 · 4577 阅读 · 0 评论 -
Sqoop使用教程
Sqoop安装:(要有hadoop环境)1.上传源码 sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz,并解压# tar -zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/2.安装和配置2.1在/etc/profile添加sqoop到环境变量export SQOOP_HOME=/opt/sqoop-1.4.4.bin__hadoop-2.0.4-alphaexport PATH=$P.原创 2021-12-21 16:25:17 · 4611 阅读 · 0 评论 -
hive任务卡在Tez session hasn‘t been created yet. Opening session
执行一个插入操作,结果任务在这里卡住不动了:Tez session hasn't been created yet. Opening session网上一堆的解决办法,bi原创 2021-06-02 18:01:14 · 10502 阅读 · 0 评论 -
Java8实现批量生成数仓日期维度数据
公司最近要开始数仓建设,那数仓的一些基础维度表要先生成,这里介绍最重要的维度表之一日期维度表的生成。整个过程分三步走:使用java8的日期类生成日期维度表所需要的各种字段; 将生成的记录使用springboot+mybatis批量插入到mysql中; 使用sqoop将mysql表中的数据导入到hive中;一、mysql中设计日期维度表CREATE TABLE `dim_date` ( `date_id` int(8) DEFAULT NULL COMMENT '日期数字格式,如:20..原创 2021-05-25 15:57:05 · 643 阅读 · 0 评论 -
Centos7下Azkaban3.73的安装部署
1、软件介绍Azkaban Web 服务器:azkaban-web-server-3.73.1.tar.gzAzkaban Excutor 执行服务器:azkaban-exec-server-3.73.1.tar.gzAzkaban 初始化脚本文件:azkaban-db-3.73.1.tar.gz2、软件下载下载地址:http://azkaban.github.io/downloads.html百度网盘链接:https://pan.baidu.com/s/13W-HuNyxGw9zz原创 2021-05-07 14:01:21 · 436 阅读 · 0 评论 -
最新版Ambari2.75安装及HDP3.1.5集群搭建
最近打算使用ambari搭建集群,却突然发现Cloudera相关软件包括HDP、CDH都收费了,都需要有效的订阅,并且只能通过付费墙进行访问(官宣地址:https://cn.cloudera.com/downloads/paywall-expansion.html#)。还好笔者千辛万苦在内外网找了两天才搞到最新版ambari2.7.5和HDP3.1.5的二进制安装包。以下详细介绍ambari的安装,及使用ambari搭建HDP集群的详细步骤,以及遇到的各种问题;文末有提供ambari2.7.5和HDP3.1原创 2021-05-06 10:14:11 · 9839 阅读 · 12 评论 -
centos7安装Docker步骤
官网安装教程地址:https://docs.docker.com/engine/installation/linux/docker-ce/centos/1、删除旧版本yum remove docker \ docker-common \ docker-selinux \ dock原创 2017-09-21 10:36:18 · 465 阅读 · 0 评论 -
Phoenix安装使用及使用 SQuirrel客户端连接操作Hbase
Hbase的脚本语法对于用惯了关系型数据库的程序员来讲很不爽,而使用Phoenix结合SQuirrel可以实现在Windows下,使用界面化的方式通过正常SQL语法操作Hbase,具体PHoenix和SQuirrel的详细信息在这里不做介绍了,读者可自行百度,这里给出Phoenix的官网地址:http://phoenix.apache.org/index.html。一、环境1台64位Cen原创 2017-09-04 15:47:47 · 7378 阅读 · 0 评论