工作经验分享-vivo链路监控

0. 监控
    1. 监控系统:一个监控系统应该至少有三类输出:紧急警报,工单,日志
    2. 为了更好的满足用户的需求,我们搭建了一套一体化监控系统,从硬件,网络,服务,应用全覆盖链路监控
        1. 紧急警报
            1. 检测中心:配置检测规则(自配/统一)进行检测
            2. 告警中心:对异常信息进行分发/收敛到具体用户
            3. 智能预警能力(研发中):根据历史记录发生异常趋势快速通知用户避免异常问题发生
        2. 工单
            1. 故障管理平台:对所有故障工单进行同意管理
            2. 故障定位能力(研发中):根据发生异常快速定位到异常发生点
        3. 监控场景能力(采集、计算、存储、分析)
            1. 基础监控:覆盖主机、容器各项基本指标,硬件层面到各个指标发生异常都可以第一时间进行探查
            2. 拨测监控:网络联通行,服务可达性监控
            3. 通用监控:覆盖服务各种自定义维度监控,满足各种自定义场景监控
            4. 调用链: 服务调用监控,JVM指标监控(具备鹰眼各项基本功能)
            5. 日志监控(SLS): 使用log agent进行日志收集,并对异常日志进行分析
    3. 一个监控系统能力评价
        1. 准确,稳定,延迟,覆盖面,告警能力,数据分析能力
1. 调用链    
    1. 背景  
        vivo互联网发展速度较快,应用相互依赖较多,故障发生问题难以定位,为了更好的支持业务飞速发展,开始组建调用链团队进行研发工作,之后整体框架进行不断演进。  
        调用链系统研发理论基础是《Drapper, A Large_Scale Distribute System Tracing infranstructure》,参考业界较为成熟的监控系统,不限于鹰眼(EageEye),分布式服务跟踪系统(SGM),实时应用监控平台(CAT),Zipin,Pinpoint,SkyWalking,博睿等。后面参考SkyWalking的埋点方式进行埋点采集
    2. 架构
        1. 架构概览
            


        2. 演进 
            1. 计算存储层演进(Flink + ES -> kafkaStream/kafka/Druid)
                1. flink/ES
                    1. 稳定:低数据可以短时期保持数据平稳计算输出,但是大量计算,长时间会触发Flink内存缺陷,导致反复重启失败(必然造成短时间延迟),并且延迟会导致产生无数据告警或者告警丢失;
                    2. 延迟:flink流计算时间窗口处理数据,分钟粒度需要double时间输出存储,总体延迟3分钟
                    3. 资源:flink属于较重框架,适用于复杂计算场景。监控场景属于单一场景,造成部分资源浪费
                    4. 瓶颈:ES写入达到瓶颈(扩集群,切模块),流量不能长远发展
                    5. 架构统一:除调用链场景,通用监控使用kakfaStream + druid 抗住大流量数据,为保证架构统一
                2. KafkaStream、kakfa、druid
                    1. 稳定:kakfaStream 只对上报数据进行格式转换,可以长时间稳定运行
                    2. 延迟:摄入时间延迟(1分钟~5秒钟层级);告警延迟可以达到分钟级别
                    3. 资源:Druid预处理压缩,节省存储资源;Kafka只对格式进行转换,所占资源较低
                3. 切换后的局限性
                    1. 查询延迟
                        1. Druid查询性能不如ES,同一请求在Druid查询效果较差
                            1. 将查询时间打散,大查询切成小查询
                            2. 将存储切dataSource
                            3. 增加提供查询的节点   

   
2. 核心领域概念(Trace、span)  
    1. Trace:相同业务逻辑的调用请求经过的分布式系统完整链路
        1. 使用traceId 标志某一次调用,分布式唯一,串联整个链路,因为某次调用场景会规避逻辑分支,所以不能完整反应trace链路,只有相同的业务逻辑多次请求调用触达的链路,合成后才算一个完整的trace链路
    2. Span:某一次局部请求调用
        1. 一次调用会产生多个Span,span会组成一个不完整的trace,Span需要标记本次调用所在调用链路,以及所在链路所在的链路层级,SpanID同一层级原子自增,跨层级以 . 拼接,如 1.1,1.2属于同一层级,1.2,1.2.1属于跨层级调用


    
3. 调用链采集逻辑   
    1. vivo调用链系统定位是服务层监控,是vivo互联网监控体系中的重要一环,像服务异常,rpc调用耗时,慢SQL等都是基本的监控点。如果埋点采集的数据需要满足调用耗时监控,那么至少在RPC调用及慢SQL监控场景下,将以AOP的形式来实现埋点数据采集。vivo调用链除JVM的指标采集使用java.lang.management.ManagmentFactory,其他都类似以AOP形式来实现,以为为伪代码
    2. 
4. 基本技术原理    
    1. TraceId(30位)    
    2. 全链路透传能力
        1. 跨进程:比如HTTP请求我们可以将数据放入HTTP请求的header中,DUBBO调用可以放到RPCContext中往后传递,MQ场景可以放到消息头中;
        2. 跨线程池的数据传递是无法做到对业务代码入侵的,vivo调用链Agent是通过拦截ThreadPoolExecutor的加载,通过字节码工具修改线程池的ThreadPoolExecuator的字节码来实现的
    3. javaagent
        1. javaagent是一个JVM参数,调用链通过这个参数实现类加载的拦截,修改对应类的字节码,插入数据采集逻辑代码
            1. javaagent参数使用
            2. 了解JDK的instrumentation机制(premain方法,ClassFileformer接口)及MANIFES.MF文件中关于Premain-Class参数配置
            3. 字节码工具使用(ByteBuddy)
            4. 类加载隔离技术原理及应用
5. 调用链的难点与挑战
    1. 数据量大
        1. 采集
            1. 链路概率采集(万一采集)
            2. 全量采集异常链路帮助定位问题
            3. 提高主机链路采集比例(丢弃DB,中间件链路)
        2. 计算
            1. 监控数据呈指数式增长
            2. 增加核数已经达到集群分布式瓶颈
            3. 数据切分逻辑,按组件维度进行计算
        3. 存储
            1. 已经达到摄入瓶颈
            2. 分dataSource、切换Druid
        4. 稳定性
            1. 监控数据异常突增
        5. 延迟性
            1. 数据延迟
            2. 告警延迟
    2. 对数据挖掘
        1. 异常数据挖掘
        2. 故障快速定位   
          

【无人机】基于改进粒子群算法的无人机路径规划研究[和遗传算法、粒子群算法进行比较](Matlab代码实现)内容概要:本文围绕基于改进粒子群算法的无人机路径规划展开研究,重点探讨了在复杂环境中利用改进粒子群算法(PSO)实现无人机三维路径规划的方法,并将其与遗传算法(GA)、标准粒子群算法等传统优化算法进行对比分析。研究内容涵盖路径规划的多目标优化、避障策略、航路点约束以及算法收敛性和寻优能力的评估,所有实验均通过Matlab代码实现,提供了完整的仿真验证流程。文章还提到了多种智能优化算法在无人机路径规划中的应用比较,突出了改进PSO在收敛速度和全局寻优方面的优势。; 适合人群:具备一定Matlab编程基础和优化算法知识的研究生、科研人员及从事无人机路径规划、智能优化算法研究的相关技术人员。; 使用场景及目标:①用于无人机在复杂地形或动态环境下的三维路径规划仿真研究;②比较不同智能优化算法(如PSO、GA、蚁群算法、RRT等)在路径规划中的性能差异;③为多目标优化问题提供算法选型和改进思路。; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注算法的参数设置、适应度函数设计及路径约束处理方式,同时可参考文中提到的多种算法对比思路,拓展到其他智能优化算法的研究与改进中。
标题中的"EthernetIP-master.zip"压缩文档涉及工业自动化领域的以太网通信协议EtherNet/IP。该协议由罗克韦尔自动化公司基于TCP/IP技术架构开发,已广泛应用于ControlLogix系列控制设备。该压缩包内可能封装了协议实现代码、技术文档或测试工具等核心组件。 根据描述信息判断,该资源主要用于验证EtherNet/IP通信功能,可能包含测试用例、参数配置模板及故障诊断方案。标签系统通过多种拼写形式强化了协议主题标识,其中"swimo6q"字段需结合具体应用场景才能准确定义其技术含义。 从文件结构分析,该压缩包采用主分支命名规范,符合开源项目管理的基本特征。解压后预期可获取以下技术资料: 1. 项目说明文档:阐述开发目标、环境配置要求及授权条款 2. 核心算法源码:采用工业级编程语言实现的通信协议栈 3. 参数配置文件:预设网络地址、通信端口等连接参数 4. 自动化测试套件:包含协议一致性验证和性能基准测试 5. 技术参考手册:详细说明API接口规范与集成方法 6. 应用示范程序:展示设备数据交换的标准流程 7. 工程构建脚本:支持跨平台编译和部署流程 8. 法律声明文件:明确知识产权归属及使用限制 该测试平台可用于构建协议仿真环境,验证工业控制器与现场设备间的数据交互可靠性。在正式部署前开展此类测试,能够有效识别系统兼容性问题,提升工程实施质量。建议用户在解压文件后优先查阅许可协议,严格遵循技术文档的操作指引,同时需具备EtherNet/IP协议栈的基础知识以深入理解通信机制。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值