
运维
zl1zl2zl3
这个作者很懒,什么都没留下…
展开
-
深入浅出!阿里运维专家三种方法教你如何应对高并发“海啸”场景
作者:田杰,阿里云数据库高级运维专家在数据库的日常使用中,来自应用的高并发场景并不罕见,其标志性的表现为高新连接创建速率(CPS,比如 PHP 短连接)、发送大量请求到 DB 数据库层。如同海啸,大量的新建连接和请求猛烈的冲击考验着 DB 层的处理能力,非常容易出现数据库被冲击 hang 住或响应极其缓慢的情况(想象下无预知无缓冲的短时间内突然工作量翻涨数倍,会不会立时被忙哭了 ^_^)。而数据库通常作为架构最下端的数据存取汇聚单元,其性能表现和稳定性往往决定了应用的最终表现和使用体验,...转载 2020-05-14 08:47:11 · 830 阅读 · 0 评论 -
运维如何逆袭?月薪30K的牛逼运维需要的知识,全在这里了
上次写了运维,反响很大,我的粉丝是不是都喜欢看这种逆袭的故事?运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程,干的好,月薪30K没有问题,干得不好,删库跑路也可以理解。前提在于你要能忍能干能拼,还要具有敏锐的嗅觉感知前方潮流变化。如:今年大数据,人工智能比较火……(相对表示就是 Python 比较火)初级篇linux运维人员常用工具拓扑详见:1.rsync工具很多地方经...转载 2020-04-21 12:32:48 · 1557 阅读 · 2 评论 -
绝了!一个妹子 rm -rf 把公司整个数据库删没了
作者:zhouyu链接:cnblogs.com/zhouyu629/p/3734494.html经历了两天不懈努力,终于恢复了一次误操作删除的生产服务器数据。对本次事故过程和解决办法记录在此,警醒自己,也提示别人莫犯此错。也希望遇到问题的朋友能找到一丝灵感解决问题。01 事故背景安排一个妹子在一台生产服务器上安装 Oracle,妹子边研究边安装,感觉装的不对,准备卸载重...转载 2020-04-03 17:53:38 · 431 阅读 · 0 评论 -
Linux中查看日志文件的正确姿势,求你别tail走天下了!
作为一个后端开发工程师,在Linux中查看查看文件内容是基本操作了。尤其是通常要分析日志文件排查问题,那么我们应该如何正确打开日志文件呢?对于我这种小菜鸡来说,第一反应就是 cat,tail,vi(或vim)了,是的,我曾经用过好多次vim编辑器来查看日志文件(可耻)。千万不要使用vi命令来查看大文件内容, 尤其对于那些几十G的大文件。因为vi仅仅是一个编辑器(可以理解为windows中的记事...转载 2020-03-23 14:29:42 · 517 阅读 · 0 评论 -
不要再问了,数据库不建议上Docker
前言近2年Docker非常的火热,各位开发者恨不得把所有的应用、软件都部署在Docker容器中,但是您确定也要把数据库也部署的容器中吗?这个问题不是子虚乌有,因为在网上能够找到很多各种操作手册和视频教程,小编整理了一些数据库不适合容器化的原因供大家参考,同时也希望大家在使用时能够谨慎一点。目前为止将数据库容器化是非常不合理的,但是容器化的优点相信各位开发者都尝到了甜头,希望随着技术的发...转载 2020-03-20 15:46:57 · 5083 阅读 · 0 评论 -
2020 年 DevOps 七大发展趋势
据一项权威研究表明:2017年,DevOps在市场上创造了29亿美元;预计到了2022年,这个数字将达到66亿美元。作为软件项目开发的关键性要素,DevOps已经深入地影响到了软件世界的整体开发格局。许多专家预测DevOps将逐渐成为软件工程的主流模式,并将在2020年达到其顶峰。因此,对于许多研发企业而言,开发人员已不再停留在是否对其感兴趣的层面上了,而是应该真刀真枪地去实践DevOps...转载 2019-12-31 19:28:38 · 839 阅读 · 0 评论 -
阿里巴巴是如何管理测试环境的?
来源 | 公众号:云效(ID: ali_yunxiao)作者 | 林帆(花名金戟)正式环境的稳定性,除去软件自身的质量因素,主要与运行的主机、网络等基础设施相关,而测试环境的稳定性则更多受到人为因素影响。由于频繁的版本变更,以及部署未经充分验证的代码,测试环境出故障的情况屡见不鲜。本文介绍了阿里巴巴是如何管理测试环境的。阿里的许多实践看似简单,背后却蕴涵着许多思考,譬如测试环境的管...转载 2019-04-25 16:22:10 · 398 阅读 · 1 评论 -
备战618,京东如何保障系统稳定性?
作者 | 张松然,京东集团商家研发部技术专家审校 | 王洪涛每年的 618 大促都是一场技术团队大练兵的时候。本文介绍了京东是如何备战 618,保障系统稳定性的。每年 618 的大促都是一场技术团队大练兵的时候。作为技术研发人员,在这场战斗中,加深了对线上系统的敬畏之心,通过系统的备战,在技术上也得到了提升。大战在即,如何保障系统稳定,我们的备战思路是什么?首先确定自己的备...转载 2019-04-25 17:03:44 · 930 阅读 · 0 评论 -
一次心惊肉跳的服务器误删文件的恢复过程
经历了两天不懈努力,终于恢复了一次误操作删除的生产服务器数据。对本次事故过程和解决办法记录在此,警醒自己,也提示别人莫犯此错。也希望遇到问题的朋友能找到一丝灵感解决问题。事故背景安排一个妹子在一台生产服务器上安装Oracle,妹子边研究边安装,感觉装的不对,准备卸载重新安装。从网上找到卸载方法,其中要执行一行命令删除Oracle的安装目录,命令如下:rm-rf$ORACLE_...转载 2019-06-03 19:36:48 · 475 阅读 · 0 评论 -
必备面试题:系统CPU飙高和GC频繁,如何排查?
来源:http://t.cn/EI9JdBu处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的思路。对于线上系统突然产生的运行缓慢问题,如果该问题导致线上系统不可用...转载 2019-07-02 10:35:54 · 597 阅读 · 1 评论 -
一次 Java 内存泄漏排查过程,学习学习
人人都会犯错,但一些错误是如此的荒谬,我想不通怎么会有人犯这种错误。更没想到的是,这种事竟发生在了我们身上。当然,这种东西只有事后才能发现真相。接下来,我将讲述一系列最近在我们一个应用上犯过的这种错误。最有意思的是,一开始的迹象揭示的问题,与实际发生的问题完全不同。在一个凄凉的午夜午夜刚过,我就被一条来自监控系统的警报吵醒了。Adventory,我们的 PPC (以点击次数收费)广告系统中...转载 2019-07-03 09:17:01 · 362 阅读 · 1 评论 -
很慌!一次惊心动魄的服务器误删文件的恢复过程
来源:https://dwz.cn/xZFW4J8S经历了两天不懈努力,终于恢复了一次误操作删除的生产服务器数据。对本次事故过程和解决办法记录在此,警醒自己,也提示别人莫犯此错。也希望遇到问题的朋友能找到一丝灵感解决问题。事故背景安排一个妹子在一台生产服务器上安装Oracle,妹子边研究边安装,感觉装的不对,准备卸载重新安装。从网上找到卸载方法,其中要执行一行命令删除Oracle...转载 2019-06-28 09:01:23 · 363 阅读 · 0 评论 -
一次服务器CPU占用率高的定位分析
背景通过性能监控发现上线服务器cpu某核占用率已经达到了100%,而且是由我们的某个核心服务导致的。幸亏由于我们的服务进程由多个相同worker(线程)调度承担的,所以除了CPU占用率高之外,并没有对服务造成影响。随着上次我们找到那个吃IO的罪犯,这次我们要追捕的是潜伏在团体中的特务,更加惊险刺激哟!系统环境系统环境用top命令很容易定位到是谁占用CPU最高。top命令定位C...转载 2019-07-04 09:28:03 · 1007 阅读 · 1 评论 -
又一次生产 CPU 高负载排查实践
本文经授权转载自微信公众号:crossoverJie前言前几日早上打开邮箱收到一封监控报警邮件:某某 ip 服务器 CPU 负载较高,请研发尽快排查解决,发送时间正好是凌晨。其实早在去年我也处理过类似的问题,不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。问题分析收到邮件后我马上登陆那台服务器,看了下案发现场还在(负载依然很高)。于是我便利用这类问题的排查套...转载 2019-06-30 15:31:01 · 330 阅读 · 0 评论 -
不小心执行了 rm -f,先别急着跑路
作者:justminehttp://www.cnblogs.com/justmine/p/10359186.html前言每当我们在生产环境服务器上执行rm命令时,总是提心吊胆的,因为一不小心执行了误删,然后就要准备跑路了,毕竟人不是机器,更何况机器也有bug,呵呵。那么如果真的删除了不该删除的文件,比如数据库、日志或执行文件,咋办呢?欲知后事如何,请仔细看完本篇文章...转载 2019-07-26 14:36:48 · 251 阅读 · 0 评论 -
凌晨1点突发致命生产事故!看的我惊心动魄…
文章转载自公众号纯洁的微笑,作者 微笑很纯洁“有一个读者问我:你认为一个程序员具备什么样的能力,才算得上是厉害的程序员?我答:拥有解决问题的能力的程序员。这个回答貌似有点抽象,不要紧看下面的文章你会慢慢有所了解。图片来自 Pexels解决问题的能力很多年前,当我还是一个小菜鸟的时候,我的领导经常告诉我,解决问题的时候,不要局限于技术本身,并且形象的给我举了一个例子。有一次两...转载 2019-08-05 09:23:01 · 436 阅读 · 1 评论 -
2019年DevOps实践最有价值的技能Top 8
2018年DevOps世界出现了一股Kubernetes浪潮,几乎每个供应商都开发了自己的Kubernetes产品,例如NetApp Kubernetes,Puppet DevOps仪表板,RedHat的OpenShift 等等。RedHat的DevOps认证专家Shane Boulden,列出了8条最有价值技能的“DevOps Top 8”,方便DevOps从业人员或那些有志成为DevOp...转载 2019-04-29 14:46:53 · 615 阅读 · 0 评论 -
当前很多新技术本质上都在解决运维问题丨运维十年回顾
作者 | 赵成编辑 | 张婵此文系 QCon 十周年特别策划《技术十年》系列文章,在技术发展 10 年这个特殊的时间节点上,我们邀请了蘑菇街技术总监赵成来谈谈他在过去十年间的感受。一起回顾一下运维行业十年来的发展变化和趋势,以及这中间的演进逻辑,以期给更多的运维同行一个参考。很高兴能在 QCon 10 年之际接到邀请,写一写运维行业发展的这十年,非常感谢 InfoQ 社区的邀请...转载 2019-05-05 08:21:29 · 1442 阅读 · 0 评论 -
现代环境下的网络分割
网络分割是限制网络入侵影响的一种高效策略。但是, 在诸如群集调度程序这样的现代环境中, 应用程序通常会在没有操作员干预的情况下启动和重新启动。这种动态资源调配会导致不断变化的 IP 地址和应用程序入口端口。使用传统的防火墙和路由方法对这些动态环境进行细分可以在技术上具有挑战性。在这篇文章中, 我们将研究这种复杂性以及服务网格是如何成为现代动态环境中安全网络通信的潜在解决方案的。动态环境...转载 2018-09-29 09:49:03 · 1162 阅读 · 0 评论 -
全面学习Prometheus
Prometheus是继Kubernetes后第2个正式加入CNCF基金会的项目,容器和云原生领域事实的监控标准解决方案。在这次分享将从Prometheus的基础说起,学习和了解Prometheus强大的数据处理能力,了解如何使用Prometheus进行白盒和黑盒监控,以及Prometheus在规模化监控下的解决方案等。最后将从0开始构建完整的Kubernetes监控架构。监控的目标 ...转载 2018-05-30 17:14:12 · 3781 阅读 · 3 评论 -
drone + gogs 构建CI/CD
1.下载 gogs drone镜像2.接下来启动三个server,记得将里面的ip地址改成本机的。2.1启动gogs serverdocker run --name=gogs -p 10022:22 -p 3000:3000 -v /tmp/gogs:/data gogs/gogs 2.2 drone的dockerdocker-compose.ymlversion: '...转载 2018-05-18 08:53:06 · 2354 阅读 · 0 评论 -
Linux中文件上传rz使用
输入: rz 出现 文件选择框, 注意会上传到当前的目录 用法说明:sz命令发送文件到本地:# sz filenamerz命令本地上传文件到服务器:# rz执行该命令后,在弹出框中选择要上传的文件即可。说明:打开SecureCRT软件 -> Options -> session options -> X/Y/Zmodem 下可以设置上传和下载的目录。...原创 2018-07-12 10:50:51 · 3513 阅读 · 0 评论 -
微服务部署:蓝绿部署、滚动部署、灰度发布、金丝雀发布
在项目迭代的过程中,不可避免需要”上线“。上线对应着部署,或者重新部署;部署对应着修改;修改则意味着风险。目前有很多用于部署的技术,有的简单,有的复杂;有的得停机,有的不需要停机即可完成部署。本文的目的就是将目前常用的布署方案做一个总结。一、蓝绿布署Blue/Green Deployment(蓝绿部署)1、定义蓝绿部署是不停老版本,部署新版本然后进行测试,确认OK,将流量切...转载 2018-02-09 14:36:53 · 1639 阅读 · 0 评论 -
K8s基本概念入门
序言 没等到风来,绵绵小雨,所以写个随笔,聊聊k8s的基本概念。 k8s是一个编排容器的工具,其实也是管理应用全生命周期的一个工具,从创建应用,部署应用,应用提供服务,扩容缩容应用,应用更新,都非常的方便,而且可以做到故障自愈,例如某个服务器挂了,k8s可以自动将这个服务器上的服务调度到另外一个主机上进行运行,而无需进行人工干涉。那么,问题来了,要运维何用? k8s可以...转载 2018-10-17 14:47:54 · 579 阅读 · 0 评论 -
探讨下DevOPS
技术界一直就是新名词不断的风格,DevOPS这个词话说出来也挺长时间了,一直以来对这个不算太明白,以为就是指OPS应该不仅仅做OPS的工作,而是应该同时承担起开发自己OPS工作的系统,注意指的是系统,而不是脚本,因为很多的OPS操作是一个流程式的多步骤组成,并且多集群,多系统的交互,这个时候用脚本去实现是会比较难的,而且还要处理诸多的异常等,系统是一个工程性的东西,不仅仅是功能的实现,还要考虑很...转载 2018-11-15 08:52:13 · 246 阅读 · 0 评论 -
节省3500万的背后,运维如何兼顾成本与效率?
讲师介绍籍鑫璞奇虎360 智能运维项目技术负责人 360机器学习工程师,2016年加入360后一直从事与智能运维相关的工作,致力于用AI手段解决运维场景下的各种疑难杂症。 从运维成本和效率两方面发力,以达到节省资源、提高效率的目的。 今天我们要分享的是近几年我们在AIOps(智能运维)领域的探索和实践经验。下面是本次分享的摘要: 背景介绍 ...转载 2018-11-22 09:58:25 · 3609 阅读 · 0 评论 -
京东物流仓储系统618大促保障背后的运维秘诀
前言京东物流极速的购物体验背后隐藏着怎样的秘诀?仓储和配送时效是其中最为关键的一环。京东物流超强仓配体系,特别是在电商行业中独有的仓储系统,在其中起到了决定性的作用。当前京东的库房已经遍布全国,京东仓储管理系统(简称WMS系统)是最核心的生产系统,涵盖了从入库,复核,打包,出库、库存和报表等等环节。而作为系统最后端的数据库,不仅仅承担着存储数据的任务,还是系统可用性的最后一道防线,如何...转载 2018-12-02 12:09:10 · 6468 阅读 · 0 评论 -
应用迁移至K8S七步工作法!
【前言】 2018年我们团队辅助多家公司将应用迁移到了Kubernetes集群中,总结了应用迁移至K8S的七步工作法,这七步工作法不仅仅可以平滑的迁移应用,最重要的是可以让开发、运维、测试人员循序渐进的学习和掌握Kubernetes。第一步:将应用封装进容器 应用容器化是迁移的第一步,需要设计并规划好镜像的构建方案,由于Docker镜像分层的特性,通常建议使用分层方式...转载 2019-03-09 15:10:51 · 4282 阅读 · 1 评论 -
微服务为什么一定要用docker
引言早在2013年的时候,docker就已经发行,然而那会还是很少人了解docker。一直到2014年,Martin Fowler提出了微服务的概念,两个不相干的技术终于走在了一起,创造了今天的辉煌!近几年来,很多互联网关系开始跟风,构建docker+微服务的架构体系。然而,根据笔者观察发现,有些童鞋在使用过程中,只是会用,而根本不了解为什么使用docker,反正对他们来说,公司让用就用!而...转载 2019-02-28 08:50:35 · 901 阅读 · 0 评论 -
小米自动化运维平台演进设计思路
嘉宾 | 孙寅编辑 | 张婵小米自动化运维平台建设大致分为三个时期,整体建设的规划比较清晰,能够一以贯之。本文介绍了小米自动化运维平台的演进思路。现如今,随着云计算和分布式的落地和发展,越来越多的服务器都转到云上,微服务架构的落地也让现在的 IT 系统架构越来越复杂。我们的服务、应用所面对的规模也越来越大,这样的需求需要强大的运维管控系统在后面支撑。智能运维(AIOps)的概念...转载 2019-03-22 09:14:19 · 1844 阅读 · 0 评论 -
持续集成工具Jenkins看这篇就够啦!
本文以基于当前最新的LTS版本2.164.1,理论上适应于Jenkins 2.x所有版本。一、下载前往Jenkins官网[1],按需下载。如用于生产,建议下载Long-term Support (LTS)版本,这样能够获得相对长期的维护;如想体验最新的功能,可尝试Weekly版本。可以直接下载特定系统专属的版本,也可下载Generic Java package (...转载 2019-03-24 11:15:21 · 2208 阅读 · 1 评论 -
如何从零开始搭建 CI/CD 流水线
来源 | Saurabh Kulshrestha译者 | 徐进持续集成和持续部署成为现代 DevOps 趋势下的重要环节,很多角色岗位都要求 CI/CD 的相关技能。本文介绍了什么是 CI/CD 流水线,以及如何从零构建 CI/CD 流水线在当前 DevOps 的趋势下,持续集成(CI)和持续部署(CD)具有支柱性地位,那么能够成功搭建 CI/CD 流水线就至关重要了。我们可能...转载 2019-04-10 14:24:51 · 9749 阅读 · 1 评论 -
知乎部署系统演进
作者 | Iven Hsu来源 | 知乎专栏本文将从部署系统的角度,介绍了知乎应用平台从无到有的演进过程。应用部署是软件开发中重要的一环,保持快速迭代、持续部署,减少变更和试错成本,对于互联网公司尤为重要。本文将从部署系统的角度,介绍知乎应用平台从无到有的演进过程,希望可以对大家有所参考和帮助。知乎部署系统由知乎工程效率团队打造,服务于公司几乎所有业务,每日部署次数在20...转载 2019-04-17 15:44:51 · 312 阅读 · 0 评论 -
系统级性能分析工具perf的介绍与使用
测试环境:Ubuntu16.04 + Kernel:4.4.0-31 系统级性能优化通常包括两个阶段:性能剖析(performance profiling)和代码优化。性能剖析的目标是寻找性能瓶颈,查找引发性能问题的原因及热点代码。代码优化的目标是针对具体性能问题而优化代码或编译选项,以改善软件性能。 在性能剖析阶段,需要借助于现有的profiling工具,如perf等。在...转载 2018-09-07 16:00:09 · 4022 阅读 · 0 评论