
运维日常的FAQ
文章平均质量分 75
漠效
火塑青莲骨, 熵消四维痕; 形骸坍缩日, 涨落即天门。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
记一次Metrics-server异常
前几天测试环境k8s集群做etcd的备份恢复。所有的pod都起来了,包括metrics-server的状态也是Running,部署新pod也没有异常,结果kubectl top 请求的时候报错了。原创 2022-12-09 14:55:54 · 2135 阅读 · 0 评论 -
Nginx配置HTTPS跳转到非443端口的技巧和注意事项
近一段时间由于看到云服务厂商vultr有活动,就注册并开了台国外云服务器,试一下国外云服务器厂商和国内有什么区别。(“充10美元送30天内有效的250美元的免费额度,意思是30天内在 你加起来 不超出250美元的 服务随便开,但是注意的是30天后这就不免费了,记得及时关闭。只支持paypal,而阿里alipay一般是充值没活动的”)于是开始各种尝试,偶尔一次搭建服务往国内下载镜像等文件,由于443端口并发较高,流量大,下载时间长,导致的国内把443端口给封闭了,国外其他地区访问正常。原创 2022-11-30 16:49:21 · 15839 阅读 · 0 评论 -
深入剖析Nginx日志:常用分析技巧汇总
前言本来只是想写一篇Nginx日志的常用统计分析命令填充一下线上文档,虽然有点用但是觉得光写命令,文档太水了于是就顺便总结一下,在nginx或web服务中,需要有哪些进行分析的内容以及为什么有这些需求ps:统计命令的原因 在于不是每个公司或web所在的服务器上都有配置elk或其他开源日志分析工具的,而且即使有工具有时也不能筛出自己想要的内容日志格式无论进行哪种日志的分析,首先要注意日志输出的格式,不要网上的拿来就直接用以nginx来说,默认情况下没有特殊需求的,日志的配置如下:原创 2022-05-25 16:55:09 · 3257 阅读 · 1 评论 -
高效使用Jenkins:同时上线多个项目的实践
前言如果是初学者或公司上线的项目少节奏慢时,大多数的工作人员都是部署和使用一个jenkins,满足要求即可。但是当你所在的公司有很多的上线服务(例如springboot等微服务架构的服务)或者很多的分站,短时间内要求进行大量上线,如果你要是还简单的使用一个jenkins,就会出现忙不过来的问题.同一台jenkins上进行的服务过多,还会导致服务器负载过高,拖慢上线速度或超时导致上线失败。于是,我们要想办法加大jenkins的并发工作。下面介绍一些很实用的操作,Jenkins怎么加快工作/发布效率?原创 2022-05-24 13:20:42 · 4648 阅读 · 0 评论 -
优化文件/软件管理流程:搭建高效的管理服务器实践
前言由于要使运维工作更加的规范,于是要对一些操作进行统一和调整例如一些软件的安装包(tar.gz zip rpm Centos镜像),对这些文件按版本进行整理,可以做一个类似镜像网站首先最低满足以下需求:<1>要对日常或工作中需要的软件的安装包的存放位置,上传下载方式进行统一,使其不在散乱上传通过个人jumpserver账号 下载通过wget<2>在不同的局域网或网络环境下,凡是可以访问公网的,都可以使用这边提供的域名或url进行下载,避免某些环境软件的时候还得原创 2022-04-14 22:05:40 · 3938 阅读 · 0 评论 -
Mysqld_exporter部署及常见的几种错误
前言由于近期某个同事部署这prometheus的监控mysql的组件的时候,出现了一个没见过的报错,刚好有时间就写一下。mysqld_exporter的部署数据库授权需要一个账号对数据库进行查询,所以必须去监控的数据库中授权用户和密码随意CREATE USER 'exporter'@'localhost' IDENTIFIED BY 'expoter12Ssdc3' WITH MAX_USER_CONNECTIONS 3; GRANT PROCESS, REPLICATION原创 2022-04-09 16:05:14 · 15473 阅读 · 0 评论 -
等保sudo权限配置
前言由于近期协助等保,研究了一下Centos的权限配置,又有一些新的理解,于是写一篇文档对之前的安全设置进行补充by:之前写一半的老存稿,没什么可修改的,先发再说。。su可进行任何身份的切换,常用的操作如下,其他参数实际并不常用 su - 代表使用 login-shell 的变量文件读取方式来登陆系统 如果没有加用户名,则代表切换为 root 的身份 如果没有加-,直接加用户名,则代表了读取的变量方式为 non-login shell原创 2022-02-28 19:47:11 · 2132 阅读 · 0 评论 -
CentOS系统中修改root用户名后如何修复sudo命令不能使用问题
前言为了增强的系统的安全性,有时候我们会增加一些安全配置,但是又时候有些配置真的没必要,并且比较危险。登陆过程输入账号密码后,系统会先在/etc/passwd文件内核对输入的账号,如果有就读取账号对应的UID、GID,家目录、shell设置然后查找/etc/shadow中对应账号、UID,并核对输入的密码正确则进入login shell,读取/etc/profile的配置,执行/.bash_profile、/.bashrc、/etc/bashrc由此可知,我们可以通过修改/etc原创 2022-02-21 16:47:20 · 2660 阅读 · 0 评论 -
MySQL密码正确却无法登录
前言有这么一种情况,你设置了一个账号,一个密码。目的是为了限制用户使用这个账号进行登录,查询指定库 或者 通过这个账号做一个主从。你很确认你的密码是什么,甚至是刚刚设置完,但是你始终无法通过这个密码进行登录。问题原因数据库是否正常启动是否指定ip,端口,socket对登录mysql的安全限制mysql授权问题(常见问题)解决方法<1>如果数据库正常启动,root等账号,是否可本地登录和远程登录本地都登录不进去,查看日志是否报错,可跳过密码进入数据库,原创 2021-11-15 16:43:28 · 7717 阅读 · 0 评论 -
(Cobbler)分区问题及解决2
前言第一篇https://blog.youkuaiyun.com/GX_1_11_real/article/details/103766100接着上一篇,下面介绍的是Cobbler的ks文件 在磁盘16T以上 时 分区及格式化异常的解决方法。【1】分区当我们的服务器的磁盘容量大于16TB时(例如:12个4T的硬盘,组raid5)由于ext4文件系统,默认32位只能支持16T,只有修改配置后启用64位模式,才能支持16T以上。因此在ks使用ext4时,Linux操作系统安装过程中,我们并不能对16T原创 2021-11-12 15:47:42 · 996 阅读 · 0 评论 -
Prometheus打开缓慢问题解决方案:避免Too many open files错误
前言某天当prometheus添加到大致2500个指标(Targets)时,prometheus开始出现了打开缓慢,偶尔会挂掉的现象.于是进行了一些调优.在prometheus中一 单个进程打开文件句柄数过多ulimit中的nofile表示单进程可以打开的最大文件句柄数,可以通过ulimit -a查看,子进程默认继承父进程的限制(注意,是继承,不是共享,子进程和父进程打开的文件句柄数是单独算的)。网上还有一种解读是nofile表示单用户可以打开的文件句柄数,因为他们在limit.conf原创 2021-10-14 15:38:27 · 4039 阅读 · 0 评论 -
ansible-playbook推送时常见的几种错误以及解决方法(Linux)
前言由于要推送的目标服务器,系统的不统一和初始化环境的不统一,导致使用ansible-playbook推送的时候遇到了一些问题,于是对一些常见报错进行总结.目标服务器目录不存在报错如下:FAILED! => {"changed": false, "msg": "dest '/xxx/xxx/' must be an existing dir"上面的报错告知目标服务器不存在该目录,你需要去目标服务器去创建.通常出现此问题的原因为你要推送的目录不是服务器自带的,而是自行创建的,在原创 2021-09-27 17:32:36 · 10481 阅读 · 0 评论 -
Linux 启动时,出现give root password for maintenance处理方法
报错某天由于openstack资源不足,导致了宿主机杀死了上面的部分虚拟机.刚好杀死了nginx和监控各微服务存活的一个服务.导致了整个平台大部分对外服务的访问异常. 大部分服务由于配置了开机自启,重启虚拟机后就恢复了.没配置的只能手动起. 在重启某虚拟机的时候,出现了如下问题,提示GIVE root password for maintenance,输入密码并进入后,重启网卡或reboot仍退到此报错问题原因/etc/fstab文件挂载的分区异常或不正确关机及其他原因导致的分区受损常见原创 2021-09-24 16:45:28 · 12250 阅读 · 8 评论 -
K8s关于异常Pod的处理
前言某天开发人员开发环境发布失败,于是找到了这边处理一下.过程<1>发布环境是Centos系统的k8s测试集群,从jenkins上看编译正常,编译后镜像正常,结果在启动和注册时候一直不成功直到超时发布失败.<2>服务器上进行查看,发现pod状态为Pending(该状态通常是调度异常,通常是k8s 的node资源不足)kubectl get pod -n <namespace> |grep 项目名称kubectl get pod -n <nam原创 2021-09-13 16:55:43 · 1487 阅读 · 0 评论 -
Error from server (BadRequest): a container name must be specified for pod
报错之前查看pod的日志使用 kubectl logs -f <POD-name> -n <nameSpace> 该命令可正常看到日志.某天使用该命令查看状态未runnning的pod,居然产生了报错.Error from server (BadRequest): a container name must be specified for pod xxx ,choose one of:[xxx xxx]报错原因及处理原因:本来一个pod使用了一个容器,当使原创 2021-09-04 15:40:57 · 20690 阅读 · 0 评论 -
前端项目编译失败的原因及解决方案1
前言突然想简单记录一下,前端项目npm编译失败/上线失败的处理方法。某天jenkins上线失败,前端反馈测试环境直接部署前端项目的时候,提示部署失败。Finished: UNSTABLE<1>开发提供了报错 { parser: “babylon” } is deprecated; we now treat it as { parser: "babel“} , 怀疑是此报错导致的编译异常。然而这个不是报错,是需要将babylon 换成babel即可找到modules包里面的:原创 2021-08-24 12:32:32 · 1741 阅读 · 0 评论 -
mysql的源码安装(5.7.33版)
前言以前记录了5.5.32的源码安装,这个版本虽老但仍有大部分公司使用,稳定并且没需求一般不会升级。实际上5.6 5.7是现在比较常用的版本,如果要配置apollo等服务必须使用5.6及其以上版本。下面记录的是mysql的源码安装,及其排错。示例环境:centos7.6mysql版本:5.7.33【1】依赖包安装yum -y install perl perl-devel autoconf gcc gcc-c++ pcre pcre-devel openssl open原创 2021-08-19 11:53:25 · 1373 阅读 · 0 评论 -
如何处理Zabbix告警积压问题:从原因到解决方案
前言在某些时候,由于网络方面的故障(例如:交换机调整或某机房网络波动),会导致成百上千服务器报警,由于报警邮件发送频繁导致邮箱被禁,zabbix仍尝试多次发送,最后导致zabbix堆积大量告警队列,然后产生延时。当网络恢复后,并且联系邮箱管理员解除限制后,仍能不断的收到延迟的报警和恢复邮件。为了避免过时的报警,影响监控,我们需要把zabbix积压的消息处理掉,让它不再发送。方法一修改mysql的zabbix库alerts表,把状态改为已发送或发送失败<1>为了避免误操作,原创 2021-08-10 17:49:01 · 3604 阅读 · 0 评论 -
error: You must be logged in to the server (Unauthorized)报错处理
报错k8serror: You must be logged in to the server (Unauthorized)https://blog.youkuaiyun.com/GX_1_11_real/article/details/114290457error: You must be logged in to the server (Unauthorized)原创 2021-08-05 18:00:20 · 7729 阅读 · 0 评论 -
LDAP应用:OpenLDAP集成到Jenkins
前言前段时间遇到个jenkins登录问题,正好填一下以前写openldap或jenkins留下的坑,介绍一下openldap集成到Jenkins的操作Jenkins ver. 2.176.2openldap 2.4.44Centos 7.2Openldap相关配置下方链接为Openldap搭建操作https://blog.youkuaiyun.com/GX_1_11_real/article/details/108577999Openldap重置密码由于使用个人环境忘记管理员原创 2021-07-03 18:31:48 · 869 阅读 · 5 评论 -
apt-get upgrade异常解决办法
问题使用ubuntu系统升级软件包时,出现了报错,原因 为依赖关系导致解决方法/var/lib/dpkg/info 用于保存各个软件包的配置文件列表,安装包时会从这里查找依赖如果误删该文件夹,不会造成系统瘫痪,但会对后续软件的安装造成影响<1>清理info目录 mv /var/lib/dpkg/info /var/lib/dpkg/info_bak<2>重新生成info.并修复损坏的软件包mkdir /var/lib/dpkg/i原创 2021-05-27 14:31:32 · 2661 阅读 · 0 评论 -
关于Nexus3拉取不到jar包的问题处理
前言最近的编译的时候,出现了maven从Nexus3私服中,拉取不到jar包的情况,于是记录一下处理方法。原因及处理方法负载jenkins同时执行的Job过多,用于拉取和编译的服务器的负载过高解决方法:关于这个问题,建议编译服务器的性能高点,同时并行的任务数量不要一次跑太多dns导致网络异常导致编译服务器找不到私服地址如果是这个原因导致的,应该是所有jar包都拉不下来,不会出现仅部分或某个jar包无法拉取的现象。解决方法:去编译机ping一下,使用命令尝试拉取ja原创 2021-04-15 16:15:06 · 5422 阅读 · 0 评论 -
Nexus3忘记密码,如何登录
前言前几天nexus3拉取jar包出现了问题,想要登录排查却发现把密码忘了。于是,总结了一篇处理方法,部分说明当源码包解压后,解压出的nexus为应用目录./etc/nexus-default.properties 可配置端口./bin/nexus.vmoptions 可修改运行内存和工作目录./bin/nexus 为启动脚本(status/stop/start/restart)当启动后,如不调整工作目录,默认会在应用目录上一层创建工作目录sonat原创 2021-04-15 12:26:40 · 3659 阅读 · 1 评论 -
磁盘分区的扩容
只是想说一下基本的扩容问题。。为什么需要扩容?扩容简单的来说就是扩充容量。通常情况下,随着业务或需求的发展,原来分配的资源不满足现在的需求,对原本的资源进行扩充,使其能满足需求。例如:你以前买了个500G的移动硬盘,以为够用了。结果几年之后,你下的东西太多了,存储不下你的东西了,要么删除,要么扩充你的磁盘空间。扩容方法:<1>在云服务器上,通常只需要付费就可以很快的进行磁盘扩容,也可以新挂载 硬盘/nfs 等产品来达到扩充资源的目的。如果担心数据丢失,通常应该在扩容前做一个快照,出现原创 2021-01-27 12:11:14 · 1266 阅读 · 0 评论 -
Nexus搭建各类私服(npm私服)
前言写这个主要是因为一个一直以来碰到过很多次的问题,有时候代码的编译太慢,尤其是前端代码。平时就很慢了,从2019年后半年起,发现在某个时间段(20点之后),编译还会出现超时问题,导致编译失败。而测试环境,编译正常。后来,查到了问题原因: 公司内网的npm私服配置的npm的镜像地址为官网,当开发编译时要拉取的官网的第3方依赖没在私服的缓存中找到时,私服就会去请求官网,而大家都知道官网是国外的,所以导致超时问题。而开发在测试环境编译环境中配置的镜像源为淘宝镜像,因此很少遇到网络问题,即使有时候时间长点原创 2021-01-21 15:37:54 · 1606 阅读 · 0 评论 -
阿里云镜像迁移后的网络问题
前言最近由于腾讯云服务器快到期了,就想把上面的资料迁移到阿里云上。原因是个人在阿里云上创建了一个镜像,镜像里有各种实验留下来的资料,把这个镜像当做了一个备份,需要时也可开启上面的服务。这篇文章主要是记录的遇到的问题。迁移镜像由于镜像当初是放到了国外的可用区,使用自定义镜像创建云服务器是不可以跨地域的。就是说 同一个/不同账号 无法使用杭州的自定义镜像,去创建北京的云服务器。这时就需要把镜像复制到需要创建云服务的区域。复制镜像可把镜像复制到其他地域共享镜像可把镜像共享到其他账号<原创 2021-01-04 17:29:17 · 1295 阅读 · 0 评论 -
Ansible-playbook执行慢问题处理
前言估计看到这个文档的人,应该都大致了解ansible。它是一款基于Python开发,完善的自动化运维工具,可以简单的实现批量的任务。由于其基于ssh,所以无需安装客户端,只要ssh可以登录上去,就可以执行批量的管理。举例来说:只要你会简单的ansible 命令,并且你的ansible服务器能登录其他服务器,就可以对大量的主机 批量安装软件,批量配置或发送文件,批量的添加计划任务,批量执行脚本等(目标主机的目录的权限和用户权限也得稍微注意点)。ansible也可以集成到Jenkins或者devlops原创 2020-12-07 17:35:39 · 3989 阅读 · 0 评论 -
Openstack web界面登录异常处理
前言报错<1>某天正在使用openstack时,突然被退出了,输入平常的账号和密码,却弹出Unable to establish connection to keystone endpoint(无法建立与keystone终结点的连接)Unable to establish connection to keystone endpointMissing value auth-url required for auth plugin password在控制台输入openstack原创 2020-11-10 14:35:46 · 9847 阅读 · 0 评论 -
LDAP应用:OpenLDAP的备份,迁移及还原
前言通常一个当服务搭建起来后,我们不仅要考虑服务的高可用性,还要考虑数据备份和恢复。例如:svn,gitlab,wiki,jumpserver等重要的服务及其数据都需要一个备份和还原的措施。因此继LDAP的配置后,下面介绍的是基本的备份和恢复操作。LDAP备份基础环境Centos7.2slapd 2.4.44slapcat备份slapcat -v -l backup.ldifor slapcat > backup.ldif特点:仅在ldap服务器中执行,无需输原创 2020-09-24 20:12:57 · 6355 阅读 · 0 评论 -
Hadoop学习---必先了解基础概念
前言虽然有些人们对历史不是太过重视,使用软件和现有的程序的时候仅仅只是当作工具,实际上技术的发展一般都是有迹可循的,当然除了黑科技以外。了解技术的发展历史,可以帮助我们随着它的发展轨迹和思路,深入的了解这个技术。可根据个人需要跳过历史介绍,另此文只适宜初学者用于了解概念。 详细内容请观看hadoop官方网站:http://hadoop.apache.org/releases.html发展原创 2018-01-21 16:30:40 · 575 阅读 · 0 评论 -
网络RAID技术----DRBD解析
简介DRBD全称(Distributed Replicated Block Device),即分布式块设备复制由内核模块和相关脚本而构成。虽然它每次只允许对一个节点进行读写与访问但对于通常的故障切换高可用集群来说已经足够。实现方式是通过网络来镜像整个设备,可以把它看作是一种网络RAID。它允许用户在远程机器上建立一个本地块设备的实时镜像。实际工作中将其分为两个角色,prim原创 2018-01-17 09:43:28 · 3101 阅读 · 0 评论 -
二、LB 负载均衡集群-----LVS调度算法解析
LVS拥有其自带的调度算法,用于决定LVS如何选择后端RealServer。就像是你要给孩子分糖果,你决定给女孩儿多一点,或是低个的多一点,调度算法就是一种对数据流量的分配方法。有如下几种: 调度算法可分为静态调度和动态调度。 静态调度:轮叫调度、加权轮叫、目标地址散列、源地址散列 动态调度:最少链接、加权最少链接、基于局部性的最少链接、带复制的基于局部性最...原创 2018-01-09 20:19:18 · 887 阅读 · 0 评论 -
二、LB 负载均衡集群-----LVS概述
本文适合刚入门人群观看,望提出意见,共同进步! 说到LB 负载均衡集群就不得不提到LVS,这一篇主讲LVS的概念。LVS是负载均衡设备,它不提供任何服务,用户请求到这里的时候,它将客户需求转发至后端真正提供服务的服务器。 分发器:为整个集群提供一个唯一的入口。 real server:后端提供服务的服务器被称作real server。 LVS分为两部分:ipvs原创 2018-01-08 21:11:53 · 844 阅读 · 0 评论 -
阿里云SSL证书申请及SSL证书安装
前言下面要介绍的是在阿里云申请或购买SSL证书,及SSL的证书安装的操作。关于SSL证书的介绍,之后再写一篇来解释。由于每个人实际上关于web服务器的安装或配置有差异,所以导致证书的安装也会有一定的差异。本文使用yum安装的httpd,apache版本: Apache/2.4.6 。与本文的环境相同的,可直接使用此文档。SSL证书购买或申请【1】免费证书购买<1&...原创 2019-01-22 19:00:20 · 1289 阅读 · 0 评论 -
HTTP状态码总结
前言当我们使用客户端访问网页时,客户端会向网页所在的web服务器发送请求。 该web服务器接着会根据接收到的请求,在向客户端发送响应的信息并在客户端接收并显示网页前,返回一个包含HTTP状态码的信息头用以响应浏览器的请求,代表了请求得结果。Name: 文件名 Status :http状态码 Type :文件格式 Size:文件大小 time :获取文件的速度最...原创 2018-07-23 17:16:20 · 716 阅读 · 0 评论 -
(Linux)make编译用法简述
前言在Linux系统中我们经常会使用到make编译的命令来对一些源码包进行编译安装,下面就详细的解析一下make系列命令的用法。命令详解【1】make等同于 make all 它是一个解释makefile中指令的命令工具执行make时,默认会去(当前文件夹下),找名为Makefile的文件根据Makefile文件来编译源代码,生成目标文件及可执行...原创 2018-07-16 17:16:11 · 18048 阅读 · 0 评论 -
HTTP简述
前言在我们的互联网生活中,我们经常会看见每一条网址的前面都有http这几个字母,那么,它们又是什么意思呢?又有什么作用呢?下面我们就由浅入深的介绍一下http。HTTP概念如果你想要更快的理解,请查看一下OSI七层模型(是一种数据传输的概念上的模型)这实际上是和计算机的设计及互联网的数据传输的原理是有关的,使我们的数据在传输的时候,在一定的环节中,会遵循某个特定...原创 2018-11-27 10:44:13 · 533 阅读 · 0 评论 -
/etc/profile /etc/bashrc ~/.bash_profile ~/.bashrc ~/.bash_logout 区别
前言在Linux中我们经常会对一些变量进行配置,我们常用的配置变量的文件通常是 /etc/profile以及~/.bashrc,实际上在Linux中还有许多的配置变量的配置文件。下面就是关于这些文件的区别的概述。概述1./etc/profile: 这个文件是为系统的每个用户设置环境信息(当每个用户第一次登录时,该文件被执行)2./etc/profile.d 这个文件实...原创 2018-05-18 15:16:48 · 962 阅读 · 0 评论 -
2.Linux系统中各种关系的辨析--------进程pid和ppid、进程的uid和euid、用户的uid和gid
前言在学习Linux以及其他的各种操作系统的时候,有时你会遇到各种名字的id,可能你一看它们就会觉得很苦恼,觉得很费劲,实际上它们并不需要你去记住它们的每个数字,但是你只要记住它们所代表的含义即可了。在计算机的设计中包含了许多宏大的思想,其中有一条就是为计算机的每一步,每一个程序执行产生的进程、线程等做一个标记,可以让我们通过这些标识,知道它们间的关系、次序,便于我们的管理。后来这个打标签...原创 2018-05-03 19:20:39 · 4329 阅读 · 0 评论 -
误删Crontab计划任务的恢复
前言有的时候,由于误操作导致计划任务被删除,如果没有计划任务的备份或记录就麻烦了。因此下面介绍的是常用的误删Crontab计划任务的恢复操作。误删操作<1>误退出导致,ctrl +c 退出即可输入crontab后, ctrl +d<2>误清除crontab -r<3>误删文件执行ansible或其他命令,导致的cron文件丢失&...原创 2020-04-27 15:42:54 · 3602 阅读 · 0 评论