数据库管理员(DBA)的日常工作就像数据库系统的"全能管家",既要确保数据安全稳定,又要让系统跑得又快又顺。每天早上,他们第一件事就是像医生查房一样检查数据库的"健康指标"——查看日志报警、监控性能数据、核对备份状态。接着化身"数据库侦探",通过分析性能报告找出拖慢系统的"元凶"SQL,优化索引和执行计划。同时还要当好"数据保安",定期验证备份可用性,制定应急预案。当开发团队需要支持时,他们又变成"数据库顾问",协助设计表结构、优化查询语句。遇到突发故障时,则要快速切换成"急救员"模式,处理锁冲突、连接异常等问题。此外,他们还要持续关注存储空间、维护文档记录,并通过自动化脚本提高工作效率。可以说,DBA的一天就是不断在预防、优化、救火三种状态间切换,用专业技术守护着企业的数据命脉。
日常工作总览
| 序号 | 模块 | 主要任务 | 备注 |
|---|---|---|---|
| 1 | 系统可用性巡检 | 实例状态、主备状态、HA状态 | 每日2次以上 |
| 2 | 备份与恢复管理 | 备份状态确认、恢复演练计划 | 每日确认,定期演练 |
| 3 | 性能监控与调优 | 慢SQL、锁等待、资源瓶颈分析 | 每日执行 |
| 4 | 安全合规检查 | 账号权限、审计日志、密码策略 | 每日核查,周报记录 |
| 5 | 变更管理 | 脚本审核、变更窗口确认、变更执行 | 全程记录、双人复核 |
| 6 | 故障隐患排查 | 高频告警、参数异常、空间增长趋势 | 每日持续追踪 |
| 7 | 支撑与服务 | 工单处理、开发支持、紧急支援 | 实时响应 |
每日SOP详细流程
一、开班前巡检(07:00-08:30)
司南监控平台每日自动巡检:首先检查实例状态,数据库是否正常启动、主备切换状态。一旦发现异常将立即升级处理;其次监控表空间使用情况,包括使用率、剩余空间及临界空间告警,由监控脚本实时检测并在超阈值时发出预警;同时跟踪数据库连接数,通过司南平台监测活跃会话和阻塞会话,若连接数超标则迅速排查问题源头;此外,平台会核查夜间备份任务状态,记录成功与否及失败原因,遇到备份失败情况将及时介入处理;最后汇总全天监控告警信息,重点分析严重告警,通过脚本确认是否存在重大隐患,确保系统稳定运行。
1、检查实例状态:数据库是否正常启动、主备切换状态

2、检查表空间:监控使用率、剩余空间、临界空间告警

3、检查连接数:查看活跃会话、阻塞会话

4、检查备份状态:夜间备份是否成功、如失败分析原因,介入处理
5、监控告警:查看告警总览、严重告警汇总,确认是否存在重大隐患

二、上午工作计划(09:00-12:00)
1、变更准备:核对变更申请单,审核相关脚本,评估变更影响,确认回滚方案。

2、安全检查:核对权限变更记录,追踪异常登录IP,扫描审计日志。
3、性能维护:进行索引维护,收集统计信息,确认慢SQL优化情况。
4、故障隐患处理:跟踪前日遗留隐患点的整改进度,对当前发现的问题进行预防性处理。
三、中午峰值保障(12:00-13:30)
1、实时监控:重点监控高峰时段的TPS(每秒事务数)和QPS(每秒查询数)指标,实时跟踪数据库死锁情况,持续关注系统延迟关键指标

2、应急准备:及时确认并处理各类监控告警信息,确保值守人员随时待命,做好应急响应准备
四、下午工作安排(13:30-17:30)
1、变更执行:低风险变更执行、回执记录
2、工单处理:开发、测试、运营部门的支持请求处理

3、性能分析:高风险慢SQL、锁争用、历史长事务分析
4、日志审计:合规性审计日志采集、异常行为分析
5、数据容量:未来一周容量预测、存储资源规划建议
五、下班前确认(17:30-18:00)
1、备份确认:次日备份窗口、资源准备确认
2、日报汇总:开今日故障、变更、隐患、工单、风险事件汇总
3、交班交接:夜班值守重点事项确认
每周重点工作
| 项目 | 工作内容 |
|---|---|
| 备份恢复演练 | 选定样本数据库进行备份恢复完整性验证 |
| 安全审计报告 | 出具周度权限审计、访问异常审计报告 |
| 参数优化回顾 | 根据趋势评估参数调整建议 |
| 数据脱敏检查 | 确保测试环境脱敏合规 |
每月重点工作
| 项目 | 工作内容 |
|---|---|
| 容量规划 | 下月存储、IO、CPU、内存预测 |
| 历史性能趋势分析 | T+30 性能趋势及大促/对账期间的负载评估 |
| SOP制度回顾 | 现有SOP执行有效性复盘、更新优化 |
其他
重大节假日及金融大促期间特殊SOP
| 模块 | 工作内容 |
|---|---|
| 提前演练 | 主备切换、备份恢复、容灾演练 |
| 双人值班 | 全程技术值守、随时响应 |
| 专项监控 | 加强核心系统交易指标实时监控 |
常用监控指标清单
| 指标分类 | 关键指标 |
|---|---|
| 实例可用性 | Alive、Listener状态、Primary/Standby状态 |
| 性能指标 | CPU使用率、Buffer Cache命中率、Redo生成速率、Undo使用率 |
| 事务指标 | 活跃事务数、长事务、锁等待数 |
| 安全指标 | 非授权访问尝试、账号锁定次数 |
| 存储指标 | 表空间使用率、归档空间、闪回区空间 |
| 审计指标 | 权限变更记录、DDL操作记录、非业务DML记录 |
典型故障场景与SOP流程
| 场景 | 快速响应流程 |
|---|---|
| 连接异常 | 网络连通性 → Listener状态 → Alert Log排查 |
| 慢SQL暴增 | SQL实时采样 → 会话跟踪 → 执行计划分析 |
| 表空间满 | 短期扩容 → 评估数据清理/归档策略 |
| 主备同步异常 | Standby日志延迟监控 → Gap日志补齐 |
| 死锁频繁 | 锁等待链分析 → SQL重写建议 → 临时解锁操作 |
1653

被折叠的 条评论
为什么被折叠?



