14、可观测性工具选择与实施指南

可观测性工具选择与实施指南

1. 可观测性技术趋势

可观测性主要有日志、指标和追踪三个支柱,目前追踪是使用最少的。但随着越来越多的工作负载转向云原生,分布式追踪将得到更广泛的应用。分布式追踪能为 IT 系统中的每个活动提供上下文,其应用场景将不断拓展,不再局限于传统的客户体验监控、业务和流程优化等。未来几年,开源可观测性工具和标准成熟后,组织实施追踪会更加容易。

同时,网络安全威胁日益复杂,云技术和云原生应用的广泛采用使情况更加严峻。安全专业人员希望通过可观测性增加对应用和服务设计、开发、运行和使用的深入了解,以保护其免受网络威胁。可观测性数据不仅能展示应用或服务的状态,还能揭示其安全漏洞。目前,可观测性在 Kubernetes 和容器平台方面的应用需求较大,同时在应用安全、代码级安全、入侵检测和网络流量分析等领域也有广泛的应用前景。

自动修复也是可观测性的一个新兴领域,它能让组织提供更具弹性的 IT 服务。通过将可观测性与 CI/CD 工具(如 Chef、Puppet、Terraform 和 Codefresh)相结合,开发者可以利用 CI/CD 工作流实现服务恢复的自动化响应,并使用可观测性工具触发修复过程。修复过程包括销毁和创建新工作负载、根据需求扩展或缩减基础设施、在 ITOps 环境中响应 IT 事件进行配置更改,以及在 SecOps 环境中自动响应网络钓鱼攻击、阻止防火墙中的 IP 地址和隔离可疑用户等。

2. 可观测性的成本考量

与任何新技术一样,组织受其好处的驱动会推动可观测性的采用。但随着时间推移,成本问题会变得突出。组织需要考虑可观测性的价值、实施的总成本以及这些好处的货币价值。

那些努力减少和整合工具数量、简化可观测性采用流程并使其更易于使用的组织,将看到总体拥有成本(TCO)的降低。整合和停用现有工具可以节省许可证和运营成本,使用标准收集器可以进一步降低数据收集、传输和处理的成本。此外,可观测性有望提高数据的准确性和可靠性,从而提高运营和业务效率。这些节省的成本可以抵消可观测性的实施成本。相反,那些未能从上述方面实现价值的组织,由于成本压力,最终可能会缩减或优化可观测性实施的范围,使其无法发挥全部潜力,最终沦为高级监控工具。

3. 选择可观测性工具的建议

在选择可观测性工具时,应重点关注工程师、开发者和业务人员日常面临的实际问题。例如,组织当前和未来试图解决的问题类型、用户的技能水平、易用性、运营考虑以及适应未来趋势的能力等,这些因素应优先于供应商和技术偏好、过往成功经验、产品熟悉度等因素。

同时,成本是一个重要的考虑因素。组织无论选择构建、利用还是购买可观测性工具,都必须以某种方式证明或收回所花费的资金。单一的成本回收方法往往难以奏效,组织需要采用多种方法,如节省成本、避免成本、提高效率,以及在可能的情况下,通过可观测性成果提高多年的收入。

4. 可观测性实施工作流程

一旦组织决定实施可观测性,需要分两个阶段进行:准备和规划组织变革阶段,以及实施阶段。

4.1 准备 - 组织范围的变革
  • 步骤 1:认可多年计划 :可观测性涉及组织思维、组织方式和运营方式的改变,这是一个多年的过程。组织领导者需要理解并接受这一点,并在多年内投入精力和资源。建议寻求组织变革管理专业人员的帮助来规划和管理这一变革。
  • 步骤 2:建立可观测性团队 :设立一个集中的可观测性团队,负责领导、建议、促进和为整个组织提供咨询,以实现可观测性。该团队将协助组织内的各项工作,为高级管理层和领导者提供项目建议,并为组织内的各个团队提供与可观测性相关的持续支持。
  • 步骤 3:建立可观测性框架、流程和工具 :可观测性工程师和架构师应确定相关利益相关者,并与他们合作建立可观测性框架、相关流程以及统一的可观测性工具和标准。至少应与企业架构和企业数据治理团队合作,企业架构师在将可观测性框架和原则制度化方面发挥重要作用,数据治理团队则有助于工程师了解安全的数据处理方法和监管影响。其他利益相关者因组织而异,也取决于可观测性的业务驱动因素。
  • 步骤 4:宣传可观测性 :高级领导者需要与组织变革管理专家合作,宣布新愿景,传达过渡路线图,并宣传可观测性的必要性和好处。这是可观测性旅程中的一个重要里程碑和关键步骤,能展示组织变革的深度、高级领导者的支持和承诺,并帮助重置组织的优先事项。
  • 步骤 5:设定目标和指标 :为了有效推动变革,组织应为各个应用和服务团队以及相关工程师和技术领导者设定每年要实现的目标。大多数组织会根据服务的重要性对其进行关键度评级,理想的目标是要求每个应用每年达到一定的成熟度水平。例如:
    | 应用/服务关键度级别 | 第 1 年 | 第 2 年 | 第 3 年 |
    | — | — | — | — |
    | 关键度 1 | 定义 | 定量管理 | 优化 |
    | 关键度 2 | 管理 | 定义 | 定量管理 |
    | 关键度 3 | 管理 | 定义 | 定义 |

同时,建议将这些成熟度水平目标纳入每个工程师、架构师和人员领导者的年度绩效计划中,作为关键绩效指标(KPI),以激励员工实现可观测性目标。

  • 步骤 6:测量和报告 :持续一致地测量和报告可观测性计划在整个组织中的成熟度水平和进展情况非常重要。建议每季度进行一次组织范围内的应用或服务成熟度水平报告,为组织提供一个整体快照。这些报告有助于高级管理层、技术领导者和应用团队监控进展,并分配资源以实现多年计划设定的年度目标。报告结果也可用于衡量员工年度绩效评估计划中设定的 KPI。
graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(认可多年计划):::process --> B(建立可观测性团队):::process
    B --> C(建立可观测性框架、流程和工具):::process
    C --> D(宣传可观测性):::process
    D --> E(设定目标和指标):::process
    E --> F(测量和报告):::process
5. 实施 - 组织采用

典型的可观测性实施包括以下逻辑步骤:
- 构思阶段
- 识别当前监控中的差距,了解当前实施未覆盖的挑战。
- 评估可用于数据收集、分析和引发事件的可用工具和技能,这些工具可以是内部开发的或从市场购买的。
- 与领导、支持团队、预期用户和技术架构师沟通,他们是这个阶段的利益相关者。
- 此阶段的交付成果是一个可观测性实施的粗略计划,包括大致的资金估算和将使用的工具的占位符。
- 数据收集阶段
- 与应用团队合作,确定应用的所有可能数据来源。
- 考虑每个数据源可用的数据收集方法,如果需要新工具进行数据收集,可提前与采购团队沟通。
- 尽可能利用现有的集成进行数据收集,以节省时间和资源。
- 评估是否需要构建新的集成。
- 考虑数据的可用格式,并评估这些格式是否与可用的可观测性工具兼容。
- 利益相关者包括集中的可观测性团队和可观测性的预期用户,如果收集的数据敏感,企业数据团队可能会参与。
- 数据分析阶段
- 对收集到的数据应用数据素养。
- 关联来自不同来源的数据,以深入了解业务功能和应用服务。
- 为应用构建用于趋势分析和跟踪重要指标的仪表板。
- 建立关键绩效指标(KPI)并进行跟踪。
- 制定数据访问、加密和安全策略。
- 确定数据的消费者,并构建易于使用的接口。
- 利益相关者与数据收集阶段相同,此时最好对目标可观测性成熟度水平和可观测性框架有明确的决策。
- 问题捕捉阶段
- 制定识别 KPI 和服务级别协议(SLA)违规的政策。
- 为各种场景选择阈值政策,可以设置静态阈值或自适应阈值,使系统能够学习模式以识别异常值。
- 与支持团队合作,了解他们的警报需求以及希望如何接收问题通知。
- 关注能够关联事件并评估对相关应用影响的工具。
- 应用支持团队可以独立设置所需的警报,也可以请集中的可观测性团队协助。
- 解决方案实施阶段
- 使用自动化实施解决方案,以节省时间和成本,包括自动修复、构建部署管道、自动化数据收集机制和构建数据可靠性解决方案。
- 加强变更管理、访问控制、数据加密和数据安全方面的流程。
- 此阶段的主要利益相关者是集中的可观测性团队和可观测性框架,可能需要企业架构师来推动相关领域的变更。
- 监控和演进阶段
- 监控可观测性实施,确保解决方案能够处理至少 75% 的事件。
- 识别差距并添加功能以增强现有解决方案,通常需要在第二、第三或第四阶段进行一些工作。
- 定期审查整个解决方案(仪表板、警报和流程),以确保其对客户仍然相关和有用。定期审查的其他好处包括早期问题检测、提高效率、改进决策、提高可靠性、合规性和成本节约等。
- 此阶段需要用户和集中的可观测性团队的积极参与,领导需要在整个过程中提供必要的支持和资金。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(构思阶段):::process --> B(数据收集阶段):::process
    B --> C(数据分析阶段):::process
    C --> D(问题捕捉阶段):::process
    D --> E(解决方案实施阶段):::process
    E --> F(监控和演进阶段):::process

通过遵循这些步骤和考虑因素,组织可以更有效地选择可观测性工具并实施可观测性战略,从而提高 IT 服务的弹性和安全性,实现业务的高效运营。

可观测性工具选择与实施指南(续)

6. 不同阶段的利益相关者与协作

在可观测性实施的各个阶段,不同的利益相关者发挥着关键作用,他们之间的有效协作是确保项目成功的关键。以下是各阶段利益相关者的详细信息及协作要点:

阶段 利益相关者 协作要点
构思阶段 领导、支持团队、预期用户、技术架构师 领导需提供战略方向和资源支持;支持团队分享现有系统的痛点和需求;预期用户反馈实际使用场景和期望;技术架构师从技术层面评估可行性和架构设计。各方共同确定可观测性实施的大致方向和目标。
数据收集阶段 集中的可观测性团队、预期用户、企业数据团队(可选) 集中的可观测性团队主导数据收集方案的制定和执行;预期用户协助确定数据来源和需求;若涉及敏感数据,企业数据团队提供数据安全和合规方面的指导。
数据分析阶段 集中的可观测性团队、预期用户 集中的可观测性团队负责数据处理和分析,构建仪表板和 KPI;预期用户参与定义分析需求和指标,确保分析结果符合业务需求。
问题捕捉阶段 集中的可观测性团队、应用支持团队 集中的可观测性团队制定问题识别策略和阈值;应用支持团队根据实际运维经验提供反馈,协助确定合适的警报机制和通知方式。
解决方案实施阶段 集中的可观测性团队、可观测性框架、企业架构师(可选) 集中的可观测性团队推动解决方案的实施;可观测性框架提供统一的标准和规范;企业架构师在需要对系统架构进行调整时提供专业建议。
监控和演进阶段 用户、集中的可观测性团队、领导 用户提供使用反馈,帮助发现问题和改进需求;集中的可观测性团队负责监控系统运行,进行功能增强和问题修复;领导提供资源和支持,推动项目持续发展。
7. 可观测性实施的挑战与应对策略

可观测性实施过程中可能会面临各种挑战,以下是一些常见挑战及相应的应对策略:

7.1 技术集成挑战

随着组织采用多种技术和工具,将不同的数据源和系统集成到可观测性平台可能会遇到困难。例如,不同的日志格式、指标定义和追踪协议可能需要进行转换和适配。

应对策略
- 使用标准的可观测性协议和接口,如 OpenTelemetry,它提供了统一的数据收集和传输标准,有助于简化集成过程。
- 开发自定义的适配器和转换器,将不同格式的数据转换为可观测性平台能够处理的格式。
- 与供应商合作,确保其产品支持可观测性集成,或者提供必要的 SDK 和工具。

7.2 数据量与性能挑战

可观测性会产生大量的数据,处理和存储这些数据可能会对系统性能造成压力。同时,实时分析和响应大量数据也需要高效的算法和架构。

应对策略
- 采用数据采样和聚合技术,减少数据量的同时保留关键信息。例如,对日志进行抽样,对指标进行聚合计算。
- 优化数据存储和处理架构,使用分布式存储系统和并行计算技术,提高系统的可扩展性和性能。
- 建立数据生命周期管理策略,定期清理过期数据,释放存储空间。

7.3 组织文化挑战

可观测性的实施需要组织文化的转变,员工可能对新的工作方式和流程感到不适应,甚至产生抵触情绪。

应对策略
- 加强培训和教育,提高员工对可观测性的认识和理解,让他们了解可观测性对工作的帮助和价值。
- 建立激励机制,将可观测性目标纳入员工的绩效评估,鼓励员工积极参与可观测性实施。
- 营造开放和协作的文化氛围,鼓励员工分享经验和反馈,及时解决他们遇到的问题。

8. 可观测性未来发展趋势

可观测性领域正不断发展和演进,以下是一些未来可能的发展趋势:

8.1 人工智能与机器学习的融合

人工智能和机器学习技术将在可观测性中发挥越来越重要的作用。通过对大量可观测性数据的分析和学习,AI/ML 可以自动发现异常模式、预测故障,并提供智能的决策支持。例如,使用深度学习算法对日志数据进行分析,实现自动故障诊断;利用机器学习模型对指标数据进行预测,提前发现潜在的性能问题。

8.2 跨云与混合云可观测性

随着越来越多的组织采用跨云或混合云架构,实现跨云环境的统一可观测性将成为一个重要需求。这需要可观测性工具能够支持不同云服务提供商的数据源和监控指标,提供跨云的全局视图和分析能力。

8.3 安全与可观测性的深度融合

安全将成为可观测性的核心关注点之一。可观测性数据不仅用于性能监控和故障排查,还将用于安全威胁检测和防范。例如,通过分析网络流量和系统日志,及时发现潜在的安全漏洞和攻击行为;利用可观测性数据进行安全审计和合规性检查。

9. 总结与建议

可观测性对于现代组织的 IT 运营和业务发展具有重要意义。通过选择合适的可观测性工具,遵循科学的实施流程,组织可以提高 IT 服务的弹性和安全性,实现业务的高效运营。

在选择可观测性工具时,要充分考虑实际需求和成本效益,优先关注工具的易用性、扩展性和兼容性。在实施过程中,要注重组织文化的转变和员工的参与,确保可观测性项目能够得到顺利推进。同时,要密切关注可观测性领域的发展趋势,及时引入新技术和新方法,不断提升可观测性能力。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(技术集成挑战):::process --> B(使用标准协议和接口):::process
    A --> C(开发自定义适配器):::process
    A --> D(与供应商合作):::process
    E(数据量与性能挑战):::process --> F(数据采样和聚合):::process
    E --> G(优化存储和处理架构):::process
    E --> H(建立数据生命周期管理):::process
    I(组织文化挑战):::process --> J(加强培训和教育):::process
    I --> K(建立激励机制):::process
    I --> L(营造协作文化氛围):::process

希望以上内容能够为组织实施可观测性提供有益的参考和指导,帮助组织在数字化转型的道路上取得更大的成功。

【博士论文复现】【阻抗建模、验证扫频法】光伏并网逆变器扫频稳定性分析(包含锁相环电流环)(Simulink仿真实现)内容概要:本文档是一份关于“光伏并网逆变器扫频稳定性分析”的Simulink仿真实现资源,重点复现博士论文中的阻抗建模扫频法验证过程,涵盖锁相环和电流环等关键控制环节。通过构建详细的逆变器模型,采用小信号扰动方法进行频域扫描,获取系统输出阻抗特性,并结合奈奎斯特稳定判据分析并网系统的稳定性,帮助深入理解光伏发电系统在弱电网条件下的动态行为失稳机理。; 适合人群:具备电力电子、自动控制理论基础,熟悉Simulink仿真环境,从事新能源发电、微电网或电力系统稳定性研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①掌握光伏并网逆变器的阻抗建模方法;②学习基于扫频法的系统稳定性分析流程;③复现高水平学术论文中的关键技术环节,支撑科研项目或学位论文工作;④为实际工程中并网逆变器的稳定性问题提供仿真分析手段。; 阅读建议:建议读者结合相关理论教材原始论文,逐步运行并调试提供的Simulink模型,重点关注锁相环电流控制器参数对系统阻抗特性的影响,通过改变电网强度等条件观察系统稳定性变化,深化对阻抗分析法的理解应用能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值