
运维人生
文章平均质量分 69
大囚长
大丈夫遗世独立,孑然一身。
展开
-
AI工作流+专业知识库+系统API的全流程任务自动化
通过整合AI工作流、专业知识库和系统API接入,大模型可以高效完成工单处理任务,实现从任务解析到执行的全流程自动化。通过上述技术组合,企业可实现工单处理效率提升50%以上(根据实际场景测试数据)。建议优先从高频、低风险场景切入,逐步构建完整的智能化工单处理体系。工单流程拆解与AI工作流编排。工作流与API集成模式。原创 2025-02-20 15:37:07 · 1057 阅读 · 0 评论 -
配置管理工具和k8s功能重叠部分的优势比较
虽然自动化配置管理工具和应用内管理机制可以实现自动部署、扩缩容、负载均衡和故障恢复等功能,但 Kubernetes 在。原创 2025-01-06 16:58:43 · 1169 阅读 · 0 评论 -
运维领域的先进思想和趋势
强调开发(Development)和运维(Operations)之间的协作,通过自动化工具和流程来加速软件交付和提高系统稳定性。:将计算和存储资源部署在靠近数据源的边缘位置,以减少延迟和带宽消耗,适用于物联网(IoT)和实时数据处理场景。:由 Google 推广的一种运维方法,强调通过软件工程的手段来管理和运维系统,确保系统的高可用性和性能。:通过聊天工具(如 Slack)集成运维工具,实现实时监控和操作,提高团队协作效率。:通过自动化构建、测试和部署流程,确保代码的快速和可靠发布,减少手动干预和错误。原创 2024-09-05 11:56:29 · 509 阅读 · 0 评论 -
k8s部署grafana beyla实现app应用服务依赖图可观测
OS:Static hostname: testIcon name: computer-vmChassis: vmMachine ID: 22349ac6f9ba406293d0541bcba7c05dBoot ID: 83bb7e5dbf27453c94ff9f1fe88d5f02Virtualization: vmwareOperating System: Ubuntu 22.04.4 LTSKernel: Linux 5.15.0-105-genericArchitecture: x原创 2024-06-19 18:05:58 · 748 阅读 · 0 评论 -
kubespray离线安装k8s
OS:Static hostname: testIcon name: computer-vmChassis: vmMachine ID: 22349ac6f9ba406293d0541bcba7c05dBoot ID: 83bb7e5dbf27453c94ff9f1fe88d5f02Virtualization: vmwareOperating System: Ubuntu 22.04.4 LTSKernel: Linux 5.15.0-105-genericArchitecture: x原创 2024-06-14 16:40:59 · 1537 阅读 · 0 评论 -
AIOps实现的简单途径
我们可以利用AI大模型的理解能力来帮助分析和解释Kubernetes(K8s)的日志。通过提供日志中可能存在问题的部分,AI模型可以帮助我们识别出异常情况、错误代码或其他潜在的故障原因。AIOps需要大模型的支持,但是训练一个业务专用的大模型并不是一件理想的任务,所以利用开源的通用大模型才是天道。虽然AI模型可以提供有价值的见解和帮助,但它们并不是完美的。这里实际上我们只使用了AI作为中间的信息提取和判断,源头的供应以及末尾的处理仍然依赖人类的经验和专业知识。原创 2024-06-12 16:33:34 · 533 阅读 · 2 评论 -
Kubectl 命令技巧大全
kubectl命令是操作 Kubernetes 集群的最直接和最高效的途径,这个 60 多 MB 大小的二进制文件,到底有啥能耐呢?转载 2024-06-11 17:40:09 · 180 阅读 · 0 评论 -
k8s AIOps
k8sgpt 是一个用于扫描Kubernetes集群、诊断和分级问题的工具。它以简单的英语呈现问题,并将站点可靠性工程(SRE)的经验编码到其分析器中。通过AI丰富问题的解释,k8sgpt帮助提取最相关的信息。它支持与多个AI服务提供商的开箱即用集成,包括OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini以及本地模型. 这意味着您可以根据自己的需求选择不同的AI服务提供商。k8sgpt内置了如下的分析器:rsAnalyzer。原创 2024-06-07 11:00:40 · 1406 阅读 · 0 评论 -
使用kubespray部署k8s生产环境
Kubespray 是一个开源项目,它利用 Ansible Playbook 来自动化部署 Kubernetes 集群。支持多种基础设施:可以部署在 AWS, GCE, Azure, OpenStack 以及裸机上。高可用性:支持部署高可用的 Kubernetes 集群。可组合性:用户可以选择不同的网络插件(如 flannel, calico, canal, weave)来部署。支持多种 Linux 发行版。原创 2024-06-05 14:02:31 · 1781 阅读 · 0 评论 -
使用jaeger作为trace工具生成服务trace图(服务依赖)
参考文档Jaeger 受 Dapper 和 OpenZipkin 的启发,是由 Uber Technologies 发布的开源分布式追踪系统。它用于监控和排查分布式上下文传播分布式事务监控根因分析服务依赖关系分析性能 / 延迟优化Jaeger 架构:jaeger-query: 用于客户端查询和检索组件,并包含了一个基础的 UIjaeger-collector: 接收来自 jaeger-agent 的 trace 数据,并通过处理管道来执行。原创 2024-05-20 10:58:05 · 1411 阅读 · 0 评论 -
分布式链路追踪论文 - Dapper 阅读笔记
Dapper 是谷歌内部使用的分布式链路追踪系统。谷歌技术人员于 2010 年将 Dapper 的设计思想以及工程实践作为论文发表,后续大量分布式链路系统例如 Zipkin、Jeager、Tempo、Pinpoint、CAT,均能看到 Dapper 的影子。通过 Dapper 可以帮助代码的后期维护人员发现很多不曾注意的细节通过调用链发现系统的不合理之处,例如服务间隐蔽的循环依赖如果做了读写分离,及早发现读请求是不是有被负载到写服务器上的情况帮助新人理解业务帮助bug问题定位。转载 2024-05-07 10:34:47 · 203 阅读 · 0 评论 -
SkyWalking 极简入门
SkyWalking 是什么?FROM分布式系统的应用程序性能监视工具,专为微服务、云原生架构和基于容器(Docker、K8s、Mesos)架构而设计。提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案。转载 2024-05-06 10:05:05 · 326 阅读 · 0 评论 -
systemd的unit
是一个用于管理 Linux 系统初始化和服务的系统和服务管理器。中,不同类型的单元(unit)用于配置不同的系统资源和服务。原创 2024-04-12 10:09:27 · 304 阅读 · 0 评论 -
IT系统可观测性
可观测性(Observability)是指能够从系统的外部输出推断出系统内部状态的能力。在IT和云计算领域,它涉及使用软件工具和实践来收集、关联和分析分布式应用程序以及运行这些应用程序的硬件和网络产生的性能数据流。这样做可以更高效地监控、诊断和调试应用程序和网络,满足客户体验期望、服务级别协议(SLA)和其他业务需求。日志:记录应用程序事件的详细时间戳记。指标:基本测量数据,如内存使用量或CPU容量。跟踪:记录每个用户请求的端到端过程。原创 2024-03-15 17:04:00 · 948 阅读 · 1 评论 -
开源 sysgrok — 用于分析、理解和优化系统的人工智能助手
在这篇文章中,我将介绍 sysgrok,这是一个研究原型,我们正在研究大型语言模型 (LLM)(例如 OpenAI 的 GPT 模型)如何应用于性能优化、根本原因分析和系统工程领域的问题。你可以在上找到它。转载 2024-03-15 14:06:09 · 149 阅读 · 0 评论 -
使用anaconda管理多python版本环境
因此,如果需要一个轻量级的、可定制的Python环境,或者磁盘空间有限,那么Miniconda可能是一个更好的选择。如果需要一个全面的、方便的Python环境,或者不想花时间安装其他的包,那么Anaconda可能是一个更好的选择。原创 2024-03-08 11:46:48 · 578 阅读 · 0 评论 -
AIOps入门
一旦我们有了一个模型,我们就开始通过调整超参数来提高它的性能,测试不同的学习方法,直到我们对模型的性能满意为止。比如,数据pipeline链接到数据库,AI 模型可以访问数据库,AI 模型以某种方式对外暴露预测的接口,并且可以把格式化输入传入到模型中。部署在移动应用上的边缘模型。选择最需要的特征,也就是说:我们的模型可能并不需要所有的数据来训练。AI 模型需要大量的数据进行学习,我们要收集涉及到需求的所有数据。所以需要规划程序的功能,并编写、构建、测试、部署,直至将它发布出来,然后监控应用程序的基础设施。转载 2024-03-07 14:50:51 · 250 阅读 · 0 评论 -
Datadog平台各服务简介
Datadog 是一个云监控平台,提供了多种服务来帮助用户监控、分析、优化和保护他们的应用程序、基础设施、网络和安全。: 监控和可视化用户的云、混合或本地基础设施的性能、可用性和健康状况。: 收集和分析用户的网络流量数据,以识别和解决网络问题,优化网络连接和性能。: 监控和管理用户的网络设备,如路由器、交换机、防火墙等,以确保网络的稳定性和安全性。: 监控和管理用户的容器化应用程序和服务,如 Docker、Kubernetes、Amazon ECS 等,以提高容器的效率和可靠性。原创 2024-03-07 11:43:08 · 2004 阅读 · 0 评论 -
AIOps常见问题
因此,可以说AIOps的agent已经成为一个全能的系统工具,它不仅是AIOps平台的数据源,也是AIOps平台的执行器和展示器,是实现智能运维的重要组成部分。当然,AIOps的agent还有很多的优化和创新的空间,比如如何提高agent的安全性、稳定性、兼容性、可扩展性等,这些都是AIOps的agent未来需要持续探索和解决的挑战。AIOps的agent是指部署在IT系统中的一种软件组件,它可以收集和传输各种类型的运维数据,如日志、指标、事件、配置、拓扑等,供AIOps平台进行分析和处理。原创 2024-03-06 18:58:15 · 1530 阅读 · 0 评论 -
相比传统运维工具,AIOps的优势在哪里?
随着继续影响行业,或工具对于 IT 团队变得越来越重要,仅在中就占 40%。尽管 AIOps 技术越来越受到关注,但业务领导者和 IT 分析师可能会发现很难选择完全符合他们需求的正确工具。在本文中,我们将全面比较各种 AIOps 工具,阐明它们的特性、功能以及它们如何增强 IT 运营和决策流程。通过探索这些关键因素,我们的目标是帮助企业做出明智的决策并释放 AIOps 的全部潜力,以提高 IT 环境的效率和敏捷性。转载 2024-03-06 15:15:44 · 540 阅读 · 0 评论 -
变革中的容器技术
另一方面,低级容器运行时也在不断发展和创新,以提供更好的安全性和性能。除了最常用的 runc 外,还有一些基于虚拟化技术的容器运行时,如 runv,kata 和 firecracker,它们可以通过虚拟化 guest kernel,将容器和主机隔离开来,提高容器的安全性和隔离性。例如,Kubernetes 作为最流行的容器编排平台,已经宣布弃用 Docker 作为其容器运行时,转而支持符合 CRI (容器运行时接口) 的容器运行时,如 containerd 和 cri-o。原创 2024-02-26 17:51:48 · 889 阅读 · 0 评论 -
数字化运维与AIOps
数字化运维是一种基于信息技术手段数字化升级的运维方式。它通过运用云计算、人工智能、自动化技术等创新手段,实现了运维过程的数字化、自动化、智能化和高效化。数字化运维可以实现数据收集和分析、自动化运维和实时监控等功能,可以更快、更准确地发现和解决问题,并提高生产、服务的效率和质量。标准化:通过优化运维任务和流程,减少复杂性和变动,确保运维工作的简洁、高效和可重复。协同网络:通过跨团队、跨部门、跨组织的集成和协作,实现运维管理的精细化和透明化,提高协同效率和运维质量。原创 2024-02-26 17:14:17 · 1247 阅读 · 0 评论 -
为什么IO会导致CPU使用率飙升
因此,服务器的IO高会导致CPU飙升,影响系统的性能和稳定性。为了避免这种情况,可以采用一些优化措施,比如使用异步IO、IO多路复用、缓存、批量处理等。Linux IO优化是一个涉及多个层面的问题,包括应用程序优化,文件系统优化,磁盘优化,IO调度器优化等。原创 2024-01-31 13:47:43 · 4114 阅读 · 0 评论 -
MySQL备份之mysqldump与xtrabackup
备份的种类:逻辑备份(mysqldump),物理备份(xtrabackup)。对于数据量小的库可以选择逻辑备份,数据量大就需要用到物理备份。转载 2024-01-18 11:39:17 · 143 阅读 · 0 评论 -
几种常见webssh服务
webssh服务原创 2023-02-24 14:22:42 · 356 阅读 · 0 评论 -
无人化运维的AIOps,还有多远的路要走
AIOps就是为了解决上述问题而生,其价值在于通过机器学习来进行运维数据的挖掘,帮助人甚至代替人进行更有效和快速的决策,从而提升业务系统的SLA,减小故障处理的时间等,带来业务的价值,并最终实现真正意义上的无人值守运维。目前国内大部分公司在技术层面的原创力都还不够强,很多都是利用国外的开源代码,有的公司甚至将几个开源产品拼凑在一起,内部之间仍是相互独立、割裂的,没有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力运维支持。一方面,技术有限,在线系统本身具有规模性和复杂性,是需要长期投入的研究领域;转载 2023-02-09 19:16:06 · 419 阅读 · 0 评论 -
无人化运维离我们有多远?
StarAgent的架构是灵活的,新的架构是基于插件的模式,插件可以是静态的(脚本、命令),也可以是动态的(后台服务),Agent Core 会保证这些插件执行的安全,同时又保证在一定的资源消耗之内, 否则就会杀掉(重启)这个插件进程,插件的开发者当然会收到消息。监控也是分层的,横向的有服务器的监控,网络监控, IDC监控, 纵向来看, 有面向业务的监控,确保系统的各种异常能被检测到,并及时提供多种途径的报警。当业务真的发生故障时,我们也有系统需要能及时的恢复故障,定位故障,甚至能故障自愈,故障预测等。转载 2023-02-09 17:41:11 · 291 阅读 · 0 评论 -
Docker 容器有什么缺陷
使用安全容器:容器有着轻便快速启动的优点,虚拟机有着安全隔离的优点,有没有一种技术可以兼顾两者的优点,做到既轻量又安全呢?安全容器与普通容器的主要区别在于,安全容器中的每个容器都运行在一个单独的微型虚拟机中,拥有独立的操作系统和内核,并且有虚拟机般的安全隔离性。使用安全加固组件:Linux 的 SELinux、AppArmor、GRSecurity 组件都是 Docker 官方推荐的安全加固组件,这三个组件可以限制一个容器对主机的内核或其他资源的访问控制,目前容器报告里的一些安全漏洞。转载 2023-02-07 14:57:18 · 1276 阅读 · 0 评论 -
为什么不建议把数据库部署在 Docker 容器内?
近2年Docker非常的火热,各位开发者恨不得把所有的应用、软件都部署在Docker容器中,但是您确定也要把数据库也部署的容器中吗?这个问题不是子虚乌有,因为在网上能够找到很多各种操作手册和视频教程,小编整理了一些数据库不适合容器化的原因供大家参考,同时也希望大家在使用时能够谨慎一点。目前为止将数据库容器化是非常不合理的,但是容器化的优点相信各位开发者都尝到了甜头,希望随着技术的发展能够更加完美的解决方案出现。针对上面问题是不是说数据库一定不要部署在容器里吗?答案是:并不是。转载 2023-02-07 11:30:26 · 784 阅读 · 0 评论 -
k8s使用statefulset部署mysql一主多从集群_k8s部署mysql集群南
metadata:spec:selector:app: mysqlmetadata:labels:app: mysqlspec:command:image: ist0ne/xtrabackup #此处镜像我做了修改 command:env:resources:requests:cpu: 500mexec:image: ist0ne/xtrabackup #此处镜像我做了修改 ports:= "x" ] ];do sleep 1;转载 2023-02-03 15:32:55 · 1416 阅读 · 0 评论 -
为什么k8s天然适合微服务?
在运维眼中他做了过多不该关心的事情,例如服务的发现,配置中心,熔断降级,这都应该是代码层面关心的事情,应该是 SpringCloud 和 Dubbo 关心的事情,为什么要到容器平台层来关心这个。在微服务中,配置往往分为几类,一类是几乎不变的配置,这种配置可以直接打在容器镜像里面,第二类是启动时就会确定的配置,这种配置往往通过环境变量,在容器启动的时候传进去,第三类就是统一的配置,需要通过配置中心进行下发,例如在大促的情况下,有些功能需要降级,哪些功能可以降级,哪些功能不能降级,都可以在配置文件中统一配置。转载 2023-02-03 15:15:06 · 483 阅读 · 0 评论 -
微服务无状态设计原则
对于无状态服务,首先说一下什么是状态:如果一个数据需要被多个服务共享,才能完成一笔交易,那么这个数据被称为状态。进而依赖这个 “状态” 数据的 服务被称为有状态服务,反之称为无状态服务。转载 2023-02-03 15:08:46 · 1148 阅读 · 0 评论 -
k8s 有状态服务 VS 无状态服务
1.数据方面:无状态服务不会在本地存储持久化数据.多个实例可以共享相同的持久化数据2.结果方面:多个服务实例对于同一个用户请求的响应结果是完全一致的3.关系方面:这种多服务实例之间是没有依赖关系4.影响方面:在k8s控制器 中动态启停无状态服务的pod并不会对其它的pod产生影响5.示例方面:nginx实例,tomcat实例,web应用6.资源方面:相关的k8s资源有:ReplicaSet、ReplicationController、Deployment。转载 2023-02-03 14:59:20 · 1247 阅读 · 0 评论 -
Rsync、Unison及DRBD的比较
Rsync 本来是用于替代rcp的一个工具,目前由rsync.samba.org维护,所以rsync.conf文件的格式类似于samba 的主配置文件。Rsync使用所谓的 “Rsync算法”来使本地和远程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分,而不是每次都整份传送,因此速度相当快。只要是能连通的两台主机 ,就可以运行 unison ,可以直接使用 socket 连接或安全的 ssh 连接方式,对带宽 的要求不高,使用类似 rsync 的压缩传输协议。转载 2023-02-03 14:43:55 · 546 阅读 · 0 评论 -
什么是IT服务管理(ITSM)?企业该如何进行IT服务管理?
在当今的商业环境中,技术成为企业发展的关键因素,不仅帮助企业降低风险和成本,还在持续推动创新和业务增长。同时企业也不可避免的面临着向云计算,移动化、需求增加以及合规的难题,但目前大部分的运维工作仍然是由人力驱动的,而且属于高度资源密集型。IT系统和流程仍然是手动的、不准确的、缓慢的,这使得运维成本持续增加,同时也对业务的快速增长带来了影响。而IT服务管理正好可以解决这些问题。转载 2023-01-30 15:05:39 · 1357 阅读 · 0 评论 -
欧洲天然气危机让Linux火了 -- 30个你应该知道的Linux趣事
衡量系统网络的使用情况,可以使用的命令有sar、ifconfig、netstat以及查看net的dev速率,通过查看收发包的吞吐率达到网卡的最大上限(**问题:**网络的最大上限怎么看呢?通过这些监控分析情况,我们可以用命令有vmstat、sar、dstat、mpstat、top、ps等命令来进行统计分析。在系统的内存分析定位过程中,当系统内存的利用率大于50%的时候,我们就需要注意了;:CPU、IO(磁盘IO、网络IO)、内存等,本文中,定性地给出了对于不同的系统资源瓶颈的度量方法和衡量标准。转载 2023-01-29 11:43:14 · 254 阅读 · 0 评论 -
Blueprint介绍和使用
衡量系统网络的使用情况,可以使用的命令有sar、ifconfig、netstat以及查看net的dev速率,通过查看收发包的吞吐率达到网卡的最大上限(**问题:**网络的最大上限怎么看呢?通过这些监控分析情况,我们可以用命令有vmstat、sar、dstat、mpstat、top、ps等命令来进行统计分析。在系统的内存分析定位过程中,当系统内存的利用率大于50%的时候,我们就需要注意了;:CPU、IO(磁盘IO、网络IO)、内存等,本文中,定性地给出了对于不同的系统资源瓶颈的度量方法和衡量标准。原创 2023-01-29 11:16:40 · 1197 阅读 · 0 评论 -
DAS, NAS, SAN 三种存储技术比较
指Direct Attached Storage,即。转载 2023-01-13 11:46:40 · 498 阅读 · 0 评论 -
超算系统需要躲开的NFS大坑
客户端CB读取文件区间[0-511]时,先从NFS服务器获取最新的文件属性,与本地缓存的文件数据的更新对比后发现NFS服务器上的数据是最新的,于是弃用本地缓存的数据,转而从NFS服务器读取最新的文件数据。仍然拿Lustre文件系统来对比,见图5,安装在计算服务器上的Lustre客户端先从元数据服务器(MDS)获得文件分布图(layout),然后就知道了每一个数据块都存放在哪个IO服务器的哪个位置, Lustre客户端直接从相应的IO服务器上读取数据块,没有中转,节省内部流量而且消除了中转延时。转载 2023-01-13 11:39:42 · 1315 阅读 · 0 评论 -
深入浅出 Kubernetes 项目网关与应用路由
本篇内容简述了应用路由的基本架构,并与 Kubernetes Service 及其他应用网关分别做了对比。最后通过 SockShop 这个案例讲解的应用路由的配置方法。希望读者对应用路由能有进一步的理解,根据应用的特性选择合适的外部服务暴露方式。转载 2023-01-13 11:15:50 · 1094 阅读 · 0 评论