
可观测实践
文章平均质量分 91
观测云
云时代的系统可观测平台
展开
-
可观测性最佳实践 | 警惕!未知的风险正在摧毁你的系统
如何通过系统全链路可观测,快速识别和定位系统前端性能、链路性能、基础设施性能瓶颈以及高效分析系统日志。原创 2023-06-19 11:41:02 · 293 阅读 · 0 评论 -
Kubernetes 集群中日志采集的几种玩法¶
对于企业的应用系统来说,日志的地位非常重要,特别是在 Kubernetes 环境,日志采集就更复杂,因此 DataKit 对日志采集提供了非常强劲的支持,支持多种环境、多种技术栈。接下来就对 DataKit 日志采集的使用方式做详细说明。原创 2022-09-14 17:30:00 · 627 阅读 · 0 评论 -
使用 CRD 开启您的 Ingress 可观测之路
¶CRD 全称是 Custom Resource Definition,是 Kubernetes 的一种内置资源类型,允许用户自定义新的资源类型。观测云实现了 CRD 资源的自定义,然后通过 CRD 控制器实现对自定义的 CRD 对象的管理。使用 CRD 采集指标,可以实现与应用的解耦。原创 2022-09-09 16:06:34 · 313 阅读 · 0 评论 -
电商订单全流程可观测最佳实践
为了满足快速迭代和流量的激增,电商系统常常使用微服务的方式来进行开发部署,某个微服务系统性能瓶颈直接会影响到客户的购物体验,特别是出现了支付异常、订单取消后,我们要观测订单的整个链路,梳理出实时已支付的订单数量、异常订单数量、取消订单数量,用这些指标帮助我们分析业务瓶颈是很有帮助的。本最佳实践是基于 Java 的一个分布式电商平台,结合观测云用订单的维度来观测订单成功支付的数量,实时剖析出未成功支付的原因。...原创 2022-08-31 16:47:57 · 650 阅读 · 0 评论 -
通过生成指标功能从非指标数据中分析趋势
肯定有那么一个指标,您一直以来都想要,但偏偏标配包里就是没有。数据筛选:在”观测云“ 平台选定已有的全部/单个应用数据来源,并基于此数据源开始生成新的数据数据查询:基于选定的数据源,您可以对现有数据进行筛选、重新聚合(Avg(取平均值)、Min(取最小值)、Max(取最大值)、Count(取数据点数)、p75、p95、p99等),请求产生新的指标结果和数据集合。生成指标:对生成指标的方式进行设置,包括生成指标的周期、新生成指标的名称和指标集名称。...原创 2022-08-26 15:57:07 · 218 阅读 · 0 评论 -
内网场景 Dubbo 微服务接入观测云
¶有的项目,用户群体是公司内部人员,或者集团公司人员。为了安全,这些项目部署在自建机房,员工通过内网或者 VPN 访问。针对这种场景,观测云提供了离线部署的方案,即通过一台可以连外网的主机上部署 DataKit,开启 Proxy 采集器,内网的主机通过这台代理安装 DataKit,所有数据也是通过这台部署的 DataKit 上报到观测云。原创 2022-08-23 10:46:20 · 279 阅读 · 0 评论 -
排查 log4j2 安全漏洞的一次经历
最近,技术圈被 log4j2 漏洞掀起巨浪,各大安全公司纷纷发文介绍该漏洞的危害,并给出了各种临时解决方案。还有一些博主也发表文章教我们如何找到易受攻击的地方,并采取相应的防御措施。还有大量帖子跟着起哄,讨论如何采用一些不必要的防御技术。前不久,我们就发现了一起由 log4j2 漏洞引发的挖矿事件。...原创 2022-08-16 16:50:59 · 1062 阅读 · 0 评论 -
腾讯云产品可观测最佳实践 (Function)¶
¶腾讯云产品众多,通常使用腾讯云-云监控对腾讯云资源和互联网应用进行监控,但是云监控的指标数据有限,更多内容需要通过编写代码的方式才能够获取。观测云使用 DataFlux Func 脚本市场可以非常快速的接入腾讯云数据 (腾讯云-云监控 API + 腾讯云产品 API ),更为丰富的指标数据,为系统稳定、定位问题提供技术支撑。...原创 2022-08-09 11:05:37 · 267 阅读 · 0 评论 -
Rancher 部署 DataKit 最佳实践
¶Rancher是一款开源的企业级管理Kubernetes集群的平台,为了简化DataKit在Kubernetes集群中的部署,DataKit支持在Rancher平台的应用市场中部署,另外DataKit也提供了使用Git仓库管理采集器配置文件的功能。使用Rancher部署DataKit并结合Git管理采集器配置,是Kubernetes集群部署DataKit的一个最佳部署方式。...原创 2022-08-02 11:13:52 · 344 阅读 · 0 评论 -
Skywalking 采集 JVM 可观测最佳实践¶
¶JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是JavaVirtualMachine的简称。Java是一门抽象程度特别高的语言,提供了自动内存管理等一系列特性,所以就有了JVM这个抽象层,JVM运行在操作系统之上,用来执行java字节码,这样Java就可以实现跨平台了。下面简要介绍一下JVM内存结构和线程,然后使用Skywalking采集JVM指标数据并通过观测云进行可观测。...原创 2022-07-25 18:08:00 · 495 阅读 · 0 评论 -
四个简单例子带你通过用户行为记录提高用户体验
本文将通过几个简单真实的例子,不是从大型网站架构或者分布式系统等宏观角度,而是从微观的用户行为数据的角度入手,通过分析用户行为数据来达到“快”的用户体验,有针对性的做出几个优化建议,其中多是从前端开发的角度入手。说到用户体验,它给人的第一印象总是抽象,带有强烈的主观意识;不好的用户体验,或者竞争对手体验更好,你所有的尖端技术、品牌营销等都很难引起用户的二次访问。用户行为分析的前提是用户行为的记录,如下图则记录了三个用户的用户记录,能看到用户访问的入口页、跳出页、浏览页面数量、错误数和回话时长。......原创 2022-07-18 17:57:25 · 402 阅读 · 0 评论 -
日志黑名单 - 省钱小妙招
“观测云”为您提供了全面的日志采集能力,支持采集Windows/Linux/MacOS主机、Web服务器、虚拟机、网络设备、安全设备、数据库等产生的日志数据,但由于采集的日志中会包含您不需要的部分日志,所以“观测云”为您提供了「日志黑名单」功能,即通过添加日志过滤规则,将符合该规则的日志数据过滤、阻止上报到工作空间,帮助您节约日志数据存储费用。您需要先创建一个观测云账号,并在您的主机上安装 DataKit,开启相关集成的运行,进行数据采集。在“观测云”中,针对于日志类数据的计费方式如下:计费项计费单元敏捷版原创 2022-07-13 17:19:47 · 205 阅读 · 0 评论 -
Minio 可观测最佳实践¶
Minio 性能指标展示:Minio 在线时长、存储空间分布、bucket明细、文件大小区间分布、S3 TTFB (s) 分布、S3流量、S3请求等。操作系统:Linux / Windows Minio 版本:ALL说明:示例 Minio 版本为 RELEASE.2022-06-25T15-50-16Z (commit-id=bd099f5e71d0ea511846372869bfcb280a5da2f6)( Linux / Windows 环境相同)指标采集 (必选)¶Minio 默认已暴露 metric原创 2022-07-12 17:45:36 · 1467 阅读 · 0 评论 -
Datakit,真正的统一可观测性 Agent
随着云、云原生的发展,越来越多的客户意识到了“数据”的重要性,纷纷掀起了一波数据累积浪潮。现今,国内外都有大量的数据采集器,但大多数采集能力单一,比如 Telegraf 仅支持指标,Filebeat只服务日志,OpenTelemetry 的 Collector对非云原生的组件并不友好,需要大量安装 Exporter插件。为了实现系统的可观测性,需要使用多个采集器,造成资源浪费。Datakit 是目前唯一的真正一体化实现各种环境(传统环境,云/云原生)统一数据采集平台,一个进程或 Daemonset Pod就原创 2022-07-04 18:20:59 · 532 阅读 · 0 评论 -
DataKit 作为本地获取数据的 API 服务器
当用户同时需要采集大量不同技术栈的指标、日志或者链路数据时或者希望在其他平台或应用中使用 DataKit 所采集并上报的数据时,Datakit 为用户提供了命令行交互模式的快速数据查询的“DQL查询”又提供了以 API 的形式去使用 DataKit 所收集到的数据的 “DataKit API”。本指南可以为您介绍 DataKit 所提供的 “DQL查询”和 "DataKit API" 的使用。您需要先创建一个观测云账号,并在您的主机上安装 DataKit。DataKit 支持以交互式方式执行 DQL 查询,原创 2022-06-29 18:01:18 · 687 阅读 · 0 评论 -
Datakit 代理实现局域网数据统一汇聚
企业内部出于安全原因,通常会进行网络管控,比如设置防火墙、安全组隔离、甚至划分 DMZ 区域。在没有公网的环境下,如何把这部分数据统一汇总处理,并且发送到观测云平台呢?Datakit 提供了代理功能。您需要先创建一个观测云账号,并在您的主机上安装 DataKit,作为代理主机需要能够访问公网。登录代理主机 (可访问公网),开启 proxy 插件配置文件 proxy.conf 内容如下 (默认监听 9530 端口)重启 Datakit2. 离线安装登录局域网内的主机 (无公网),执行安装原创 2022-06-24 18:00:00 · 298 阅读 · 0 评论 -
GraalVM 与 Spring Native 项目实现链路可观测
GraalVM 是高性能、云原生、多语言的 JDK 发行版,旨在加速用 Java 和其他 JVM 语言编写的应用程序的执行,同时还为 JavaScript、Python 和许多其他流行语言提供运行时。GraalVM 作为一个运行时环境是独一无二的,它提供了多种操作模式:JVM 运行时模式、Native Image、Truffle 上的 Java(相同的 Java 应用程序可以在任何一种上运行)。JVM 运行时模式在 HotSpot JVM 上运行程序时,GraalVM 默认使用GraalVM 编译器作为顶级原创 2022-06-21 18:33:01 · 740 阅读 · 0 评论 -
开启全方位安全巡检
一般在运维过程中有非常重要的工作就是对系统,软件,包括日志等一系列的状态进行巡检,传统方案往往是通过工程师编写shell(bash)脚本进行类似的工作,通过一些远程的脚本管理工具实现集群的管理。但这种方法实际上非常危险,由于系统巡检操作存在权限过高的问题,往往使用root 方式运行,一旦恶意脚本执行,后果不堪设想。实际情况中存在两种恶意脚本,一种是恶意命令,如 rm -rf,另外一种是进行数据偷窃,如将数据通过网络 IO 泄露给外部。...原创 2022-06-15 21:00:00 · 213 阅读 · 0 评论 -
可观测性的三大支柱:Metrics、Trace、Log
Opentelemetry 协议,是 CNCF (Cloud Native Computing Foundation -云原生计算基金会) 定义的最新一代可观测规范,该规范定义了可观测性的三大支柱:Metrics、Trace、Log (指标、链路、日志),三者之间的关联数据分析成为了各大厂商的必争之地。...原创 2022-06-13 19:00:00 · 7732 阅读 · 0 评论 -
网络站点可用性监测
主动发现用户的体验问题,预先感知网络站点的错误原创 2022-05-30 16:16:00 · 785 阅读 · 0 评论 -
Kubernetes下Stdout日志白名单最佳实践
环境准备已有Kubernetes环境(简称K8),本实践基于自建Kubernetesv1.23.1,观测云Datakit版本1.2.13,Nginx1.17。Datakit已经部署好,Datakit配置文件container.conf通过ConfigMap方式管理。注:(阿里云容器服务(Alibaba Cloud Container Service for Kubernetes)或其他云服务商的Kubernetes配置原理类似。前置条件Nginx日志在K8环境中的输出为Stdout方式,原创 2022-05-30 15:50:26 · 383 阅读 · 0 评论 -
开启端到端的用户访问追踪(RUM)
在全民互联网时代,用户访问Web、小程序、Android、iOS等媒介的时间越来越长,努力赚取用户注意力的应用越来越多,产品与服务的更新也越来越频繁。在这样的大环境下,详细了解用户从哪里来,看了哪些页面,停留多长时间,访问速度快慢……不仅有利于挖掘每一个用户行为背后的真实需求,稳定并提升现存流量的转化率,还能反哺产品与服务的双重优化,真正实现用户增长和业绩提升。“观测云” 提供了Web、Android、iOS和小程序的用户访问数据监测。完成应用接入后,即可在工作台的「用户访问监测」快速查看和分析..原创 2022-05-25 20:15:00 · 473 阅读 · 0 评论 -
如何进行分布式应用性能观测(APM)
应用性能监测(APM),主要用于查看系统整体的运行状态、健康程度、外部API、数据库调用以及自身代码及其调用资源的消耗或者异常问题,帮助企业从根源上快速定位问题,保障应用的性能及系统稳定性。观测云的应用性能监测,支持所有基于 Opentracing 协议的 APM 工具,如 ddtrace、Skywalking、Zipkin、Jaege 等。通过在 DataKit 中开启对应的采集器,并在需要监控的应用代码中加入相关监控文件,配置完成后即可在观测云工作空间查看上报的链路数据,同时可与基础设施、日志、RU原创 2022-05-18 19:15:00 · 510 阅读 · 0 评论 -
JAVA OOM异常可观测最佳实践
我们常见 OOM 异常场景堆溢出-java.lang.OutOfMemoryError: Java heap space。 栈溢出-java.lang.OutOfMemorryError。 栈溢出-java.lang.StackOverFlowError。 元信息溢出-java.lang.OutOfMemoryError: Metaspace。 直接内存溢出-java.lang.OutOfMemoryError: Direct buffer memory。 GC超限-java.lang.Out原创 2022-05-16 19:00:00 · 1065 阅读 · 0 评论 -
快速上手 Pythond 采集器的最佳实践
“观测云”是一款面向开发、运维、测试及业务团队的实时数据监测平台,能够统 一满足云、云原生、应用及业务上的监测需求,快速实现基础设施、中间件、应用层和业务层的可观测。基础设施监测、日志与指标管理、应用性能监测、用户 访问监测、可用性监测、异常检测、系统级安全巡检、场景和仪表板等是“观测云”的可观测解决方案,通过统一的数据采集、全面的数据监控、无缝的关联分析、自定义的场景搭建、高度的可编程性,敏捷的成员协作,为用户提供了最快、最轻松、最全面、最自由的系统可观测平台。Pythond 是 “观测云” 平台原创 2022-05-11 19:00:00 · 269 阅读 · 0 评论 -
Nginx 日志采集与分析
观测云拥有全面的日志采集能力,包括系统日志、应用日志、安全日志等多种日志类型,通过观测云提供的自定义日志采集器可采集任意日志汇总到观测云进行统一存储和分析;通过观测云提供的文本处理器(Pipeline)可对采集的日志进行自定义切割,并把切割出来的字段作为属性使用。通过属性字段,我们可以快速筛选相关日志、进行数据关联分析,帮助我们快速去定位问题并解决问题。前置条件您需要先创建一个观测云账号,并在您的主机上安装 DataKit 。方法/步骤Step1: 开启 Nginx 采集器主原创 2022-05-09 14:35:55 · 1024 阅读 · 0 评论 -
Elasticsearch 可观测最佳实践
Elasticsearch 提供了许多指标,可以帮助您检测故障迹象并在遇到不可靠的节点,内存不足的错误以及较长的垃圾收集时间等问题时采取措施。需要监视的几个关键领域是:集群运行状况和节点可用性 主机的网络和系统 搜索性能指标 索引性能指标 内存使用和GC指标 资源饱和度和错误“观测云”是一款面向开发、运维、测试及业务团队的实时数据监测平台,能够统 一满足云、云原生、应用及业务上的监测需求,快速实现基础设施、中间件、应用层和业务层的可观测。基础设施监测、日志与指标管理、应用性能监测、用..原创 2022-04-08 18:00:00 · 278 阅读 · 0 评论 -
超全面,一文快速观测K8S
简介“观测云” 支持对 Kubernetes 中各类资源的运行状态和服务能力进行监测,包括 Kubernetes Clusters、Deployments、Replica Sets、Services、Nodes 等。在“观测云”,您可以通过 DaemonSet 方式在 Kubernetes 中安装 DataKit,进而完成对 Kubernetes 资源的数据采集。最终,在观测云中实时监测 Kubernetes 各类资源的运行情况。前置条件您需要先前往观测云官网,注册一个账号方法/步.原创 2022-04-01 19:00:00 · 2445 阅读 · 0 评论 -
不会Nginx Ingress可观测,你还算的上运维工程师吗?
Kubernetes 提供了四层代理用来访问部署在 Pod 中的应用,这种具有四层代理的 Service ,Kubernetes 提供了四种访问方式:ClusterIP:供集群内的其它应用访问,外部无法访问。 NodePort:所有节点上开放指定端口,外部可以通过IP+端口访问服务,如果没有指定 NodePort 的端口,默认会随机分配一个30000–32767的端口。 LoadBalancer:在 NodePort 基础上,使用云服务商提供的负载均衡器,把流量转发到服务中。 Externa...原创 2022-03-25 18:00:00 · 3922 阅读 · 0 评论 -
想要观测您的主机,看这个就够了
宕机、系统崩溃、数据丢失、安全等,每一个问题都可能带来无法估量的损失。那么,如何更加快速、更加便捷的对IT环境进行全面监控呢?原创 2022-03-14 18:30:00 · 1041 阅读 · 0 评论