
大数据
枫夜求索阁
「枫夜·求索阁」——技术人的思维藏经阁。十年开发沉淀架构设计/源码解析/效能工具,同步技术博客(https://www.fengyege.top/)。既写硬核代码,也谈工程师人文修行,守拙求真,与大家共探技术美学与人生代码。
展开
-
问题解决:WSL的CentOS7报错Failed to get D-Bus connection: Operation not permitted解决办法
本地Windows10启动WSL的centos7,然后在安装docker-ce之后,启动报错的解决方案。原创 2022-06-03 22:46:55 · 5712 阅读 · 2 评论 -
免费亚马逊服务器过期收费,申诉并得到解决
问题场景在去年的1月份,申请了亚马逊一年的免费服务器,在前面还用得不错,但是后来遇上国庆等节日,服务器就没办法访问了。后来就搁置了几个月没有去使用。等最近才发现可以使用了。今天登陆官网,想看看自己是什么时候到期。没想到,看到二月的账单,已经产生费用了,如下图然后才意识到自己的一年免费是到今年的1月结束。接下来就是解决方法了。解决方法1、终止服务器到控制台主页,将实例进行“终止”。可以先...原创 2020-02-26 23:59:12 · 5182 阅读 · 2 评论 -
docker 设置阿里云加速器
除了使用阿里云的例子来进行设置,这里有更加简单快捷的方式来进行设置加速器。优化原因Ubuntu 16.04 和 CentOS 7 这类系统都已经开始使用 systemd 进行系统初始化管理了,对于使用 systemd 的系统,应该通过编辑服务配置文件 docker.service 来进行加速器的配置。针对系统centos7前提条件阿里云账号,并开通容器服务,获...原创 2018-04-08 13:35:26 · 1938 阅读 · 0 评论 -
问题解决:CDH重启报错,启动不了的解决步骤
因为园区突发断电,导致服务器断电。部署在服务器上面的CDH集群都挂了。现在需要重新启动起来,但是重启之后,服务一直启动不起来。本篇博文主要是针对这种情况,阐述解决问题的思路和问题解决的过程。原创 2020-05-22 14:30:36 · 6409 阅读 · 0 评论 -
kafka学习系列:消息发送确认机制,避免程序退出导致数据丢失的情况
在使用spring-kafka进行功能开发的时候,思考过这样一个问题:假如使用信号量的方式来终止程序,虽然我们使用了kafkaTemplate.send方法发送了,但是假如程序在发送过程就关闭了,是否就会造成数据丢失?即我们调用了kafkaTemplate.send方法发送了数据,认为数据已经发送了;但是程序关闭的时候,导致数据未发送成功,进而导致了数据丢失情况的发生。本文就是针对这种情况提出了解决方案。原创 2020-05-08 14:01:56 · 3158 阅读 · 0 评论 -
ansible学习系列之lineinfile模块的使用
编写ansible脚本的时候,有时候需要对配置文件做修改操作,如新增语句,这个操作要求幂等性,不能每次启动脚本的时候,相同的新增语句被重复执行。这个时候就可以使用lineinfile模块来实现这个功能。原创 2020-04-28 13:38:43 · 2685 阅读 · 1 评论 -
ansible学习系列之make模块的使用
使用ansible编写redis集群部署脚本时,对make模块的总结原创 2020-04-16 13:26:40 · 2342 阅读 · 1 评论 -
ansible学习系列之tags的使用
使用ansible编写多功能脚本的时候,对应用tags标签的思考原创 2020-04-14 09:37:20 · 2933 阅读 · 0 评论 -
客户环境没办法查看Spark UI页面,怎么办?让我们来使用Spark REST API查看作业信息吧!
场景通过跳转机才能访问到spark集群的机器;想定制属于自己公司的spark监控界面环境CDH 5.13Spark 1.6IP关系IP类型作用运行过程中,提示出现的链接,如:http://localhost:4040监控运行过程中的应用spark.yarn.historyServer.address监控已经结束的应用情况使用步骤获取spa...原创 2020-03-15 17:19:09 · 1336 阅读 · 0 评论 -
问题解决:Not able to initialize app directories in any of the configured local directories
问题场景集群之前启用了Kerberos,但是后来为了使用方便,将相关的配置都去除了。在hive上面执行SQL,比如select a from b where a.t ='1';这句简单的SQL都会报错,报错提示如下:Application application_1581349098902_0008 failed 2 times due to AM Container for appattem...原创 2020-03-06 18:31:15 · 1419 阅读 · 0 评论 -
hive udf error: overloaded method value format with alternatives:
场景spark开发udf的时候,有使用String.format函数,对数字进行格式化,结果运行报错报错提示error: overloaded method value format with alternatives: (x$1: java.util.Locale,x$2: String,x$3: <repeated...>[Object])String <and&g...原创 2020-02-13 16:01:12 · 2992 阅读 · 0 评论 -
spring-kafka 设置发送消息的大小
环境spring boot2spring cloudspring-kafkakakfa 2.2.0场景程序调用spring-kakfa内置的kafkaTemplate进行发送消息,但是消息实体过大,超过默认配置,导致消息发送失败。报错提示如下:The message is 2044510 bytes when serialized which is larger than the...原创 2019-11-28 17:32:49 · 7926 阅读 · 8 评论 -
新建redis集群
redis版本5.0.5主备规划三主三从安装路径/opt/redis-5.0.5操作步骤安装依赖# 需要外网yum install -y gcc复制安装包到 /opt/data_collection# 使用rz命令将安装包上传rz解压安装包到/opt目录tar -zxvf redis-5.0.5.tar.gz -C /opt编译cd /op...原创 2019-11-12 16:07:49 · 113 阅读 · 0 评论 -
CDH-Kerberos环境下,HBASE java连接
下载相关配置文件登录CDH控制台,到HBASE的登录页面,下载相关的配置文件到本地新建maven项目,将相关的配置文件存放到src/resources目录下面登录kerberos主机,生成hbase的kerberos密钥文件。然后和krb5.conf一起下载到本地,也是同样存放到src/resources目录下面本地hosts文件填写相关的CDH集群信息pom....原创 2019-11-11 10:15:49 · 1621 阅读 · 6 评论 -
hive 命令整理
启动hive数据库操作create database database_name; -- 新建数据库creat database if not exists -- 新建数据库 database_name;show databases; -- 查看数据库show databases like 'h.*'; -- 查看数据库use default; --使用哪...原创 2018-05-07 10:10:39 · 1452 阅读 · 0 评论 -
hive笔记
hive不支持修改表中数据,但是可以修改表结构,而不影响数据有local的速度明显比没有local慢在hive内执行Hadoop的dfs命令:(去掉hadoop,以;结尾)没有一个命令可以让用户查看当前所在的是哪个数据库库在hive内执行一些bash shell命令(在命令前加!并且以;结尾即可)Hive脚本如何注释: 使用–开头的字符串来表示注释hive中使用正则表达式 hiv...原创 2018-05-07 10:18:49 · 251 阅读 · 0 评论 -
hive 如何去除两个表相同的部分
问题场景在项目开发当中,有时候需要配合用户出报表数据。这一部分是一个难题,因为数据量大,运行时间比较长,所以就需要慎重地写SQL,保证问题的顺利解决。而这次是需要去除同一个表的两部分数据的相同部分。解决思路将同一个表的两部分数据分别抽离出来做一个表,使用left outer join来关联两个表,然后将相同字段的条件放在on里面,然后将另一个表的相同字段为空的条件放在where里面...原创 2018-05-22 10:33:42 · 8642 阅读 · 0 评论 -
“ error in shuffle in fetcher”的解决方案
问题场景使用hive进行数据的统计,发现数据进行到一半,就异常退出。查看了报错,是栈溢出,导致了异常。问题分析通过查找资料和查看资料,才发现,在shuffle阶段,会将map的output数据给取下来,然后根据设定的参数决定是放进内存中,还是存储到磁盘里面进行操作。而mapreduce.reduce.shuffle.memory.limit.percent这个参数默认值是0.25,代表...原创 2018-06-21 17:51:02 · 3489 阅读 · 0 评论 -
hadoop hive 动态分区
应用场景突然业务有要求,要求将以前的每个月的数据进行抽取保存。如果只是单纯一条一条的执行,又太过于繁琐。作为程序员,这肯定不能忍。所以,这个时候,就需要动态分区了。重要参数// 动态分区set hive.exec.dynamic.partition=true;// 非严格模式。可以不指定特定的分区。如果是严格模式,那么至少要指定一个分区set hive.exec.dyna...原创 2018-06-28 11:49:27 · 676 阅读 · 0 评论 -
hive表新增字段之数据展示问题解决
问题场景给表新增了字段,重新运行了SQL,但是控制台select表数据,新增的字段值一直为空问题解析查看了SQL,SQL没有问题;查看了hdfs的文件,使用命令hadoop fs cat查看文件内容,发现字段里面有值,文件值没有问题;这样,既不是SQL问题,也不是文件内容的问题,那么很可能就是旧有的分区关联存在问题。问题解决方式重新删除了表分区,然后重新关联。再一次...原创 2018-08-31 14:12:46 · 1457 阅读 · 0 评论 -
SparkException——Dynamic partition strict mode 问题解决
问题场景在spark-shell控制台,运行testDF.write.mode("append").partitionBy("dt").saveAsTable("t_pgw_base_statistics_final_dy_test");,提示org.apache.spark.SparkException: Dynamic partition strict mode requires at l...原创 2018-08-31 18:03:28 · 5297 阅读 · 0 评论 -
CDH磁盘空间即将满之后的解决措施
版本环境CDH 5.15.58台主机,每台机存储100GB,内存为8GB问题CDH页面报错,一些服务挂掉,无法使用。查看主机存储,发现有3-4台机器的存储即将满了。而namenode的存储空间即将满。解决措施登录namenode的后台,删除不必要的文件。因为是使用ansible进行批量的部署,所以本机依旧存储之前的安装包,总大小大概为8GB左右。删除该安装包,腾出8GB。CM管理控...原创 2019-08-28 15:12:13 · 4265 阅读 · 1 评论 -
windows10 启动zookeeper,报端口被占用,但是查询没有占用
场景启动zookeeper,但是报 Unexpected exception, exiting abnormally java.net.BindException: Address already in use: bind解决之路使用命令netstat -ano|findstr 2181,但是提示为空。说明端口没有被占用;使用命令netsh interface ipv4 show exc...原创 2019-09-11 00:22:22 · 2626 阅读 · 0 评论 -
问题修复:启动kafka服务器,显示内存不足
问题场景按照Kafka网站的启动步骤进行测试,发现问题。问题描述容器显示内存不足 failed; error=’Cannot allocate memory’ (errno=12)解决方式修改命令调用java的参数,$KAFKA_HOME是Kafka的目录cd $KAFKA_HOME/binvi kafka-server-start.sh将 export ...原创 2018-04-11 15:43:13 · 1904 阅读 · 0 评论