故障定级标准

1. 目的

前端基础是所有前端业务的基石,并保障着前端业务的稳定性和可靠性,前端基础稳定,才能保证前端业务稳定,一旦出现问题,影响范围大,所以保障前端基础的稳定性和可靠性是重中之重,但是随着前端业务量的井喷,以及基础设施的复杂性,问题的多样性,对故障处理过程的规范性、专业度要求越来越高。

因此,为了加强基础技术团队的质量意识,责任意识,提高基础团队的故障处理和协作能力,特制订本制度,规范团队的故障管理,并实现标准化、流程化。

2. 适用范围

前端基础技术团队

3. 定义解释

3.1 职责定义

序号

角色

故障责任定义

1

开发

因技术方案设计问题、代码实现bug、代码逻辑等问题导致的故障

2

运维

因基础设施变更,不稳定,异常无法提供服务等问题导致的故障

4. 故障标准

4.1 故障定义

1.发生的、影响业务正常运作的问题或事故,认定为“故障”

2.同一类问题发生频次超过某个数量,也可认定为故障。

4.2 故障分类

序号

类别

定义

举例

1

流程执行类

主要指因未遵照公司或部门既有规范、流程执行而导致的故障,或故障发生后未按照本制度要求处理等情况。

如发布至线上前未进行过测试;发布后未充分进行线上回归验证、未充分观察日志/监控等产生的故障;未及时发布故障通告、或其他“瞒报”、“漏报”等情况;故障响应不及时等

2

人员意识类

主要指因人为主观意识不到位、故意或抱侥幸心理未严格谨慎操作而导致的故障。

如责任意识不强、线上严谨意识不足、安全意识不足等。注:若因人员意识不到位而违反现有流程规范的故障,则直接定义为“流程执行类”故障。

3

能力经验类

主要指个人能力、经验不足,或部门相关业务或技术积累不够导致的故障。

如新业务、新技术或历史技术架构设计等遗留问题

4

监控报警类

主要指未设置监控报警、或监控报警出现问题而引发的故障。

如因告警阈值设置不合理,未及时收到告警进行处理,最终导致发生线上故障。注:未及时响应监控报警,属于流程执行类故障。

5

不可抗力类

主要指因外部不可抗力引发的故障。

如供应商故障(包括不限于机器、网络等故障)、外在环境原因(如施工挖断线路、国家封网)导致的故障等。

4.3 故障等级

4.3.1 故障定级原则

1.故障关键因素时长和影响面

2.影响面和故障时常同时满足,直接定级

3.影响面和故障时长不匹配时,取级别低的故障定级升一级作为最终故障定级1.比如影响时长5-10min,影响60%流量,按时长定级为p4,影响面定级为p1, p4和p1取较小值为p4, p4升一级,作为p3定级2.对外系统最高定级p1, 对内系统最高p2

4.流程故障遵循公司统一原则

4.3.2 通用故障等级定义

故障等级标识

故障等级名词

故障等级定义

影响面

故障时长

故障举例

备注

P1

重大故障

前端业务大部分不可访问,流量受损>=30%,并且持续时间>=60分钟

前端项目不可访问或者访问异常>=30%

>=60分钟

腾讯云slb故障导致前端页面全部无法访问

P2

严重故障

前端业务部分不可访问,流量受损10%~30%,并且持续时间>=30分钟

前端项目不可访问或者访问异常10%~30%

>=30分钟

P3

一般故障

前端业务小部分不可访问,流量受损1%~10%,并且持续时间>=10分钟

前端项目不可访问或者访问异常1%~10%

>=10分钟

istio管理面故障导致ingress无法访问到更新后的服务

P4

轻微故障

前端业务小部分流量访问异常,流量受损1%,持续时间>=5分钟

前端小部分流量访问异常

>=5分钟

基础设施故障定义不涉及由通用故障等级定义兜底。

4.3.3 基础设施故障等级划分定义

序号

基础设施

故障等级

故障时长

影响面

故障举例

1

Istio

P1

>=60分钟

istio管理面异常或者不可用

p2

>=30分钟

istio管理面异常或者不可用

P3

>=15分钟

部分流量转发异常

P4

>=5分钟

部分流量转发异常

2

k8s

p1

>=60分钟

Kubernetes master异常或者不可用

P2

>=30分钟

Kubernetes master异常或者不可用

P3

>=15分钟

部分功能异常

P4

>=5分钟

部分功能异常

3

Coredns

P1

>=15分钟

coredns不可用

P2

>=10分钟

coredns不可用

p3

>=30分钟

coredns部分功能异常如处理缓慢

4

容器网络

p1

>=15分钟

集群容器网络全部异常

P2

>=10分钟

集群容器网络全部异常

P3

>=30分钟

单点或者多点容器网络异常

4

Ingress

p1

>=60分钟

Ingress异常或者不可用

P2

>=30分钟

Ingress异常或者不可用

P3

>=60分钟

部分流量转发异常

P4

>=30分钟

部分流量转发异常

5

告警平台

P1

P2

P3

P4

6

网关

P1

P2

P3

P4

7

发布平台

P1

P2

P3

P4

8

任务平台

P1

P2

P3

P4

4.4 故障升级

故障等级

故障升级

p1

----

P2

>=60分钟未解决或者未处理

p3

>=180分钟未解决或者未处理

P4

>=300分钟未解决或者未处理

<think>嗯,用户遇到了使用chsh命令时出现的“PAM: 鉴定故障”问题,想要解决方案。根据提供的引用内容,我需要先整理可能的解决方法。首先,引用[1]提到更改shell时输入密码后出现故障,可能和密码输入错误有关。用户可能需要检查密码是否正确,或者是否有权限问题。引用[2]中提到用户可能在配置zsh或其他shell时出现问题,但尝试的解决方法无效,比如修改/etc/shells文件。不过引用[3]指出修改/etc/passwd可能更有效,或者检查用户是否有正确的shell路径。 接下来,我需要逐步分析可能的原因。首先,检查用户输入的密码是否正确,这可能导致PAM认证失败。其次,确认目标shell是否在/etc/shells文件中列出,如果没有,chsh会拒绝更改。第三,检查用户是否有权限修改shell,可能需要使用sudo或者管理员权限。此外,查看PAM配置是否正确,是否存在其他安全策略阻止修改。还有,确保用户账户的shell路径在/etc/passwd中是有效的。 可能的解决步骤包括:1. 确认密码输入正确,尝试重新输入。2. 检查目标shell是否在/etc/shells中,若不在则添加。3. 使用sudo执行chsh命令。4. 手动编辑/etc/passwd文件,但需谨慎操作。5. 检查PAM配置文件是否有异常。需要将这些步骤按优先级排序,先易后难,如先检查密码和shell路径,再考虑权限和PAM配置。 另外,用户可能需要知道如何查看当前可用shell,比如用cat /etc/shells,或者如何临时切换shell进行测试。还要提醒用户编辑系统文件时备份,避免操作失误导致问题。最后,如果所有方法无效,可能需要检查系统日志,如/var/log/auth.log,寻找更多错误信息。</think>### chsh命令PAM鉴定故障解决方案 根据引用内容和系统级分析,该问题通常由权限验证或配置错误引起,以下是分步解决方案: 1. **确认密码输入正确性** - 输入密码时注意大小写状态和输入法 - 尝试连续输入三次正确密码测试系统响应 - 可先用`su`或`sudo -i`验证账户密码有效性[^2] 2. **检查目标shell合法性** ```bash cat /etc/shells ``` - 确保目标shell路径(如`/bin/zsh`)在列表中 - 若不存在,需以root权限添加: ```bash sudo echo "/bin/zsh" >> /etc/shells ``` 3. **使用权限提升命令** ```bash sudo chsh -s /bin/zsh $USER ``` - 通过`$USER`自动填充当前用户名 - 此方式可绕过普通用户权限限制[^3] 4. **手动修改用户配置(高危操作)** ```bash sudo vipw ``` - 找到用户名所在行(如`rocrocket:x:1000:1000::/home/rocrocket:/bin/bash`) - 将末尾的`/bin/bash`改为`/bin/zsh` - 操作前务必备份文件: ```bash sudo cp /etc/passwd /etc/passwd.bak ``` 5. **检查PAM认证配置** ```bash sudo grep chsh /etc/pam.d/* ``` - 查看`/etc/pam.d/chsh`配置文件 - 确认包含标准认证配置: ``` auth sufficient pam_rootok.so auth required pam_unix.so ``` **操作验证示例:** ```bash # 修改成功后验证 $ grep $USER /etc/passwd rocrocket:x:1000:1000::/home/rocrocket:/bin/zsh # 查看当前shell $ echo $SHELL /bin/zsh ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

weixin_45879397

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值