- 博客(291)
- 收藏
- 关注
原创 降本增效与灾难切换
还有一种方案,就是创建k8s集群的时候,只创建一个,但是里面的机器是分布在不同的可用区的,可以有A可用区,也可以有B可用区,也可以有C可用区,这种方案的好处是应用部署只要部署一次即可,当某个可用区有问题之后,pod会自动调度到好的可用区里面去,这种方案运维其实蛮简单的,毕竟只有一个集群需要运维,而且有问题会自动好,基本上也不用切换,但是这种集群的坏处就是,如果这个k8s集群挂了,所有业务全嘎,你完全没有手段进行容灾,灾难发生的时候,只能烧香拜佛了。但是每次出故障,成本的人从来不扛锅,只有功,还是挺棒的。
2025-07-13 22:32:41
674
原创 漫谈职场文化
所以,偶尔公司会空降一条鱿鱼过来,挑战各个部门,挑战各个蛋糕,从而部门之间权力争斗,重新洗牌,重新划分蛋糕,对于原来的嫡系来说,其实比较害怕调整,因为以后就不是嫡系,而对于不是嫡系来说,内心是希望这种斗争的,因为如果没有这种鱿鱼,非嫡系的人在这个环境中,是永无出头之日的,所以才有了树挪死,人挪活的这种说法。嫡系的坏处就是新人来了,那么永远做不出有价值的事情,功劳会被收割,而背锅的活一个不落,好处都是固定的几个人的,从而慢慢的强化了每个人的一种认知,那就是如果你绩效好,并不是你干得好,而是你的领导给的。
2025-06-20 23:43:59
334
原创 运维之nginx sendfile 0拷贝报错文件句柄不存在
找一个干净的环境,进行debug调试,否则debug日志太多,你根本无法分辨对应的信息,从而也就证明了,临时文件被提前删除,从而导致了sendfile失败,主要还是因为sendfile是异步的,nginx无法感知这个已经结束了,本来这个临时文件的清理工作是在请求结束之后再清理的,但是在这个SSE长连接场景中,nginx会收到响应,从而误认为这个请求结束了,进行关闭了临时文件,这是一种竞争关系,什么时候清理生成的临时文件,也是一个考验。单一维度不能衡量所有东西,多几个维度,才能更好的评估。
2025-06-13 08:01:24
736
原创 闲聊运维产品
看其他的产品,各种各样的人配备齐全,有专门做产品的,有专门做架构的,有专门做测试的,要人有人,要时间有时间,要汇报有汇报,这样其实也很好,足够的人去向上提,评选为优秀产品的概率大大增加,虽然产品不怎么样,但是奈何人数众多,主攻的方向是职场,而非用户。做运维久了,就会接触到很多运维产品,有的功能强,有的设计灵活,有的标准化,有的提高效率,也有的脏乱差,要所有的运维接受一个产品,其实还挺难,因为有的时候,用别人的,还不如自己写个脚本可靠。人再少,看见告警就会主动去查,那么给予时间也会慢慢成为优秀的产品;
2025-05-31 02:37:24
246
原创 openresty编译之后访问403
那就只能再测试这个用户的权限了,使用命令sudo -u fuck cat /soft/openresty/nginx/html/index.html,显示为无权限,然后再用sudo -u fuck cat /soft/openresty/nginx/html,依旧无权限,直接到最后sudo -u fuck cat /soft,也是无权限,从而就是这个目录有问题,查看一下目录的权限,发现是750,emmm,主用户是root,也就是其他用户都进不去,将目录权限chmod 755 /soft,恢复正常。
2025-05-25 00:18:45
287
原创 如何优化nginx三次握手时间
但是细细一想,国内的连接的时候,每次都是十几ms,那么即使3.5个RTT,也就100ms,而在进行代理的时候,虽然国内的nginx到跨洋的nginx之间的耗时高,但是只要开启了upstream的长连接,那么就必然大大减少这种耗时的情况,长连接不但能减少耗时,而且拥塞窗口也可以一直保持满载的状态,从而性能大大提升。在使用优化后的架构跑了几天之后,发现502的数量大大增加,从修改了架构之后就出现了,而出现502的时候,基本上都是连接被上游断开,也就是海外的nginx将客户端的连接直接断开。这就是长连接的好处。
2025-04-25 22:27:53
881
原创 k8s中sidecar死循环
在使用sidecar的时候,注意分配好对应的request和limit,如果一个宿主机上的机器过多,不要把request和limit设置成一样,设置的很大,因为sidecar占用的资源也很大,最好是request很少,limit稍微大一点,而且这个配置都是固定的,不能说有的pod是一个值,其他的pod又是一个值。如果这两个pod所在的两个机器同时宕机了,也不能使用了,而且这个时候,如果业务容器重启了,那还启不起来,如果告警做的不好,那估计等整个集群挂了,你才能发现这个问题,告警做的是否充足,也是个考验。
2025-04-18 23:40:20
462
1
原创 负载均衡nginx中的FIN包传递
在七层http,是可以复用连接的,从而当客户端发送FIN的时候,在默认情况下,是会将FIN包发送到后端,从而关闭此长连接,而连接池中其他连接不受影响,也就是此时日志会记录为499的响应,表示客户端中断了连接;抓包的时候,一般先问问发生的频率,如果发生的频率低,那么抓包的时间就长了,而且如果qps大,那么抓包文件就更大了,一般使用循环抓包,例如一个文件200m,抓20个文件循环抓,这样不至于让磁盘满。Q3:为什么日志记录的是200响应,明明没有抓到后端的响应,后端发送的时候都报错了,日志记录的应该是499?
2025-04-12 23:17:51
757
原创 k8s中运行nginx的亲和性
这个时候就要看看worker process的绑定情况了,使用的命令是ps -o pid,comm,psr,看看是否这个参数是否生效了,一看不知道一看吓一跳,的确绑定了cpu,而且所有的pod全部是前面4个核,例如有10个nginx的pod,然后在一个宿主机上,你会发现所有的都绑定的是0,1,2,3这个4个核,这还不如不绑定,不绑定的时候,你会发现不停的切换cpu,依旧很快,如果都是同一个核心,争抢资源很严重。但是也说明了,超卖worker process也不是一个好的办法。
2025-03-22 01:21:52
671
原创 http的分块传输编码
序言 在http中,上传下载文件总是一个比较耗时的过程,特别是大文件的时候,从而在http1.1之后就产生这样的数据传输方式。 分块传输也就是将一个大文件划分为不同的chunk进行传输,从而客户端收到之后,再进行拼接成完整的数据。分块传输编码 本来也是无需接触这种东西的,奈何在问题排查的时候,一不小心就遇到了。 1 获取请求和响应的大小 在使用nginx的时候,如果要...
2025-02-09 01:41:59
753
原创 聊聊绩效
序言 年已经接近尾声,有的人已经发了年终奖,有的还要等等,一般是在4.30号发,当然也有各种奇葩,遥遥无期。。。 年终奖的数额一般是根据绩效来决定的,而绩效又根据什么来呢?你猜。。。绩效 1 绩效 先说说为啥要有绩效这个东西,绩效主要是用来奖励牛马的,表示今年这个牛马做的比较不错,也就是达到了年前定的KPI或者OKR,有一定的结果。 讲的通俗一点就是通过有效的目标设定,...
2025-02-03 23:05:33
205
原创 闲聊k8s的优雅关闭连接
序言 当数据在进行交互的时候,如果连接发生了改变,就必然会涉及到是否是无损关闭连接,主要就是看结束连接的时候是否是四次挥手关闭,短连接其实还好,最关键的是长连接如何关闭。 在k8s中,如果运行的是nginx ingress,就涉及到一个是reload会改变连接,一个是后面的svc发生变化的时候的连接;如果是普通的deployment,就涉及到rollingupdate滚动更新的时候,连...
2024-12-07 14:30:43
1191
1
原创 闲聊双十一
序言 偶尔会有一些奇怪的想法,例如希望我的朋友都是偷奸耍滑之辈,而我的对手都是刚正善良之辈,你猜猜为啥? 双十一过去了一段时间了,买了啥?还是说现在都习以为常了?双十一 双十一,人造的购物节日,购物的狂欢,买了一堆垃圾放家里放着,可能用的着,可能用不着,而对于商家来说大部分都是一个清理垃圾的节日。 1 双十一的狂欢-垃圾的搬运工 双十一一般早早开启,商家们就要提前一...
2024-11-24 12:43:39
455
原创 从k8s的事件聊聊for循环
序言见过的人越多,就越喜欢狗。感觉没有秋天,突然一下就凉凉的,偶尔还下个雨。k8s事件和for循环人人都爱for循环,无论是开发还是运维,经常随便来个for循环来执行一些脚本,例如进行一个测试。foriin`seq1000`;docurl-Ihttp://example.com;donefor循环是最简单的一种调用方式,但是也有巨坑,在一些特别的场景之...
2024-10-26 22:14:49
860
原创 运维大规模K8S集群注意事项
序言闲来无事,一片混沌,想不清思不断,改变好像来自于各个方面,有的时候是内部的冲突,有的时候是外部的竞争,然而,大部分情况下,一旦错过,就已经没得选了。尴尬的处境,需要有强大的抗压能力,可能是环境带来的,可能是别人带来的,而大部分情况下,都是自己带来的。运维大规模K8S集群的注意事项1pod无法启动有几个组件的pod,有的是deployment,有的是cronj...
2024-08-16 23:18:15
1429
原创 如何在kubernetes中抓包
序言 随着云原生的落地,k8s使用的人也越来越多了,而在这种环境中,抓包有的时候也是一种纠结的事情。爱意随风起,风止意难平,能不能抓到那个异常的包,有的时候靠的也是运气。在k8s环境中抓包 1 背景云使用的越多,那么就会碰到各种各样的版本,低版本一般使用的是dockerd,而高版本慢慢的在抛弃dockerd,逐渐在使用containerd,其实dockerd调用的时候,也是...
2024-08-03 01:06:03
615
原创 聊聊伪SRE
序言 剑就是剑,木剑铁剑并没有什么差别,如果提出的问题本身就有问题,那么答案又有什么意义呢?时光荏苒,还没过多久,各种高级词汇就逐渐的淡出视野,现在已经没人说碎片化时间了,因为大家都有在忙的时间,无数的短视频已经充斥了所有的时间。伪SRE 曾几可时,SRE的概念开始风靡,每个团队都自称为SRE,扛着一个名号,就感觉自己认为很高档很高级,但是实际上,名称虽然改变了,但是手头上的事还是...
2024-07-13 00:42:29
418
原创 从nginx返回404来看http1.0和http1.1的区别
序言 什么样的人可以称之为有智慧的人呢?如果下一个定义,你会如何来定义?所谓智慧,就是能区分自己能改变的部分,自己无法改变的部分,努力去做自己能改变的,而不要天天想着那些无法改变的东西,不然的话,就只能越来越消极了,消极的原因大部分也在于总是关注于自己无法改变的现实。nginx返回404问题排查 背景:大部分的人在看到nginx返回404的时候,要么就是请求了一个不存在...
2024-07-06 08:56:27
1237
原创 访问ingress nginx出现400报错
序言 在k8s中,使用的比较多就是ingress nginx了,如果你不仔细看一些配置信息,那么就会出现一些意想不到的报错。 背景:当把nginx里面的服务迁移到ingress nginx之后,访问出现了400报错,如果是你,你会怎么来排查?400报错排查 1 收到问题当迁移完成之后,就有人报障说,访问全部出现出现400 bad request,第一时间看到这个状态码,那...
2024-06-29 02:23:54
1599
原创 nginx服务器连接数告警
序言 只要系统之间有交互,那么就会有连接数,连接数的告警阈值一般设置个几万,当连接数开始告警之后,怎么来排查呢?连接数过多,会消耗cpu,内存,文件句柄等资源,其实也还好,当解决不了的时候,你可以把连接数的阈值调高一点,或许10w才开始告警,或者30w才开始告警也行,只要cpu和内存不告警,其实也没那么紧急。服务端连接数异常告警排查 1 查看连接状态当nginx充当转发...
2024-06-22 01:02:50
1055
原创 通过nginx转发后应用偶发502bad gateway
序言学习了一些东西,如何才是真正自己能用的呢?好像就是看自己的潜意识的反应,例如解决了一个问题,那么下次再碰到类似的问题,能直接下意识的去找到对应的信息,从而解决,而不是和第一次碰到一样,从头开始查一遍,如果是,那么这个问题对于你来说,可能依旧是一个新的问题。背景:把一个应用从一个代理迁移到nginx的时候,发现应用偶尔会出现502的响应,导致收到告警,而在原来中,是没有502的,...
2024-06-16 00:44:00
1478
原创 如何评估是否要学一门新技术
序言新技术层出不穷,花无重开日,人无再少年,那么我们如何评估是否要学一门新技术呢。AI比人更会选择。思考的角度一般是:学习新技术的复杂度,新技术的应用,评估新技术的收益,进入的时间,投资回报率。风言风语1 焦虑的来源新技术的问世,总是会有各种各样的卜道师在那里宣传,有的是谣言,有的是真实发生的,AI的诞生,已经很难分清真假了。宣传的时候好好的,但是如果一旦应用了,就...
2024-02-25 18:35:03
992
原创 谦虚与抱怨
序言 年底了,好像也没见闲下来,最近做梦比较多,想出售一些梦想,三元一个,接受砍价。谦虚是一种品质,大部分人认为是一种美德,但是实际上也不会有人记得你的这种好;抱怨毫无价值,但是很多人就是喜欢抱怨。风言风语 1 谦虚分时间,不要一直谦虚谦虚最近年底了,有个朋友开始在做绩效考核了,先是自我评价然后再是上级评价,朋友想了想,好像没做出啥成绩,虽然过程很努力,很辛苦,做了很多事,...
2024-01-17 23:55:49
474
原创 直播的尽头是带货?
序言 小作文一般都比较精彩,无论是怎么表演,其实都是利益的较量,蛮好玩的。年底了,如果你的绩效比较差,估计就要被开除了,如果你的绩效太好,就容易被人惦记上,保不准就有个背刺要来了。有人的地方就有矛盾,而你是否敢把你的后背交给你的小伙伴呢?风言风语 每个人都想做直播,树立自己独特的人格魅力之后,就开启了超级IP之旅,直播的尽头是带货。想想现在科技这么发达,为什么还需要靠人带货...
2023-12-18 00:07:59
192
原创 为什么读了那么多书,还是过不好这一生?
序言 年底了,又要开始进行绩效考核了,这一年又浑浑噩噩的过去了,那么你收获了什么,又失去了什么?失去了岁月?收获了皱纹?对自己这一年的评价如何?风言风语 为什么你那么努力,为什么读了那么多的文章,依旧过不好这一生,依旧很多事情无法达到一个满意的结局呢?这是一个有趣的话题。先说结论:即使很努力的经历了很多事,即使读了很多文章,即使看了很多书,如果这些所有的行为或者...
2023-12-09 22:14:32
153
原创 阿阿阿里云崩了
序 今日突发消息,阿里云崩了,受影响的产品很多,经过了一轮重启之后,然后基本恢复了。故障应急第一刀,先杀意中人,重启之后就啥都不用记忆了。风言风语 双十一刚刚过去的日子,就经历这种大规模的故障,其实还是比较残酷的,昨夜,估计很多的核心骨干人员都在通宵,而在今天这个时间点出现故障,估计大部分的人都可能还在睡梦中,该联系的能联系的或者都联系不上,运维人员多与少,是否冗余,可能和这个...
2023-11-12 22:51:05
201
原创 戏说流程制度
序 想成功,先弄几个流程制度,这也算是发疯的一种。。。想成功,先发疯。孤注一掷里面的标准化流程来一套,也是集合了各种人的经验,就和有些地方所谓的SOP流程一样,先来一套SOP,然后再继续。风言风语 秋风吹,忽然想起原来忽悠别人做各种流程。当一个企业有一定的规模之后,就会有各种流程了,为啥呢?原因有二:第一个是因为对于管理层来说,劳资定的规矩就是规矩,制定流程是为了便于管...
2023-10-21 22:48:29
143
原创 随笔一二三
序 闲来无事,聊聊最近的小想法,八百个心眼子都在转圈圈。前几天看别人钓鱼,一会一条好几斤的大鲢鱼,比较重也比较大,钓起来后都用一条绳子串起来,然后拴着放在水里面;一个小时后,又上了一条8斤的鱼,但是找不到栓鱼的绳子了,没栓紧,导致所有的鱼都跑路了。如果是你,你是觉得钓到了鱼,然后鱼跑了好,还是说。。。一直就没钓到鱼比较好呢?风言风语 一件事,能不能做成,和你的关系到底大不大,和...
2023-10-07 23:26:41
129
原创 项目管理之高效合作
序 一件事能不能做成,和你有什么关系?靠的是你的努力吗?还是说靠的只是一个运气?就像买彩票一样,你觉得中奖和个人努力有没有关系;就像和高考一样,你觉得考上北大清华和个人努力有没有关系?项目管理之管人 有个朋友说,如果想做成一件事,不得罪人是不可能的,每个人如果都想做好人,那这件事就不用做了。项目管理的目标是什么?是按时按质按量的交付产品,在限定的资源限定的成本限定的时间...
2023-10-01 13:11:01
134
原创 项目管理之低效合作
序 一叶知秋,一片叶子的落下是风的诱惑,还是树的不挽留?其实可能是叶子想起来了自由。因为没有,所以我们经常提到,为什么我们经常强调项目管理的时候需要高效协同工作,因为处处充满着低效,今天我们聊聊如何低效工作。项目关键人之间的交互 人总是因为一些事而走到了一起,只因为在人群中看了你一眼,卧槽,我眼睛瞎了。。。项目关键人之开发者角色,项目正式启动之后,就要看开发者的能力了,...
2023-09-30 09:55:35
139
原创 2022年度废物报告
序言 怎么去形容2022呢?就像废了好大力气抓住了一条鱼,后来鱼游走了,剩下一股子腥味,却怎么洗也洗不掉了。还好。。。只是一个废物。冬天--在玩一种很新奇的东西 这个冬天不太冷,简直有点热,温度直逼四十度,羊了个羊。最难沟通的不是没有文化的人,而是被灌输了标准答案的人,我看人贼准。。。有的时候能跳过一些坑,你说是运气呢还是努力?最近在更换ssl证书的时候,替换了...
2022-12-31 00:39:38
779
2
原创 聊聊技术专家谈阿里云史诗级故障
序言 什么是技术专家,其实也是很懂,是做的时间足够长呢,还是说经历的厂比较多,还是说纸上谈兵比较牛逼?专家嘛,大家都懂的。。。只会弹别人,喔。。。是谈别人,原来不是弹,有本事技术专家谈谈自己呗。风言风语 阿里云出现史诗级故障,处理的时间足够长,然后各个技术专家就给出了很多建议:例如建议做什么status page来降低沟通成本,原因是其他的云厂商都有。。。从技术上来看,...
2022-12-25 11:17:31
1331
原创 敏捷运维
序言 表面上都是自由的,实际上四周围墙,无法跨越;表面上都有很多选择,实际上没得选。 成功是一种考验,失败也是,原因能想出来吗? 敏捷运维,敏捷开发,在各种压力进行运维,有一定的适合场景,你知道么?风言风语 运维到底根据什么样的节奏走?是快一点好还是慢一点好,效率优先?……是稳一点好还是直接上比较好,稳定优先?……是有规划好还是出问题再说,质...
2022-03-26 22:37:13
769
原创 从一个小问题探讨解题思路
序言前奏一响,心一动,就是跑路的信号,从入门到删库。。。你看这篇文章,她像不像一封辞职信。运维的终点在哪儿?如果运维的终点是没有运维,那么这一切又将有什么存在的含义?风言风...
2022-03-18 23:30:00
1734
原创 平淡让你无脑?
序言我的意中人,一定会驾着五彩祥云来打死我。。。平凡之间的平淡。空花幻月,都是用来迷惑众生的。。。听我讲道理,比死还难受。风言风语 最近都在升级,产品种类繁多,但是从...
2022-03-17 00:26:54
239
原创 新春内卷
序言许久未见风来,许久未见风起,本来是准备每个月更新一个篇章,然后弄一个专题序列玩玩的,奈何今年考核的KPI的是故障数,我要干100个故障。。。没有故障,创造故障也要上,也...
2022-01-16 23:30:00
892
原创 悟
序言人生有很多执念,不过总会有人帮你轻描淡写的实现,有的人靠岁月,有的人靠时间,有的人靠母猪上树。。。人生第一个老婆最难,有了第一个,你会发现第二个,第三个都好简单。。。并...
2021-10-06 23:30:00
257
原创 七夕-我与故障有个约会
序言 专业的人做专业的事,但是做事的人一般都被开除了。。。放弃很可惜,但是坚持就一定有意义了?风言风语前言:你没有责任,那你为什么要处理故障。。。处理了故障,...
2021-08-14 19:38:13
370
1
原创 八月闲聊
序言远方就是窗外的风景,可望而不可及,在家呆的太久,都忘记了今夕是何年。如果你来南京玩,记得带好你的绿码。。。风言风语1 尊重你的用户,也尊重你自己可以吵架...
2021-08-08 00:10:37
267
原创 七月闲聊
序言 风都停了,所以闲下来瞎聊聊。。。最近头有点痒,可能是要长脑子了。。。风言风语 1 开源与商业看最近的天气,总是不太安稳,一会儿暴风雨,一会儿插喉咙,多事之...
2021-07-24 23:59:00
254
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人