无索引可观测性:如何降低可观测性成本
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Coralogix, Indexless Observability, Data Management, Observability Costs, Data Transformation, Cloud Object Storage]
导读
虽然人们经常讨论可观察性的成本,但其主要成本驱动因素——索引——却很少被探讨。在本次会议中,我们将探索索引在可观察性中的作用,并了解通过更巧妙地处理数据,我们能够在多大程度上提高效率。本次演讲由亚马逊云科技合作伙伴Coralogix为您带来。
演讲精华
以下是小编为您整理的本次演讲的精华。
Chris是一位经验丰富的软件工程师,也是全栈可观测性平台Coralogix的倡导者。他在亚马逊云科技 re:Invent 2024大会上发表演讲,向观众介绍了“无索引可观测性”的概念——一种旨在更高效处理数据、降低传统索引方法成本的架构模式和数据管理理念。
Chris首先承认了传统索引的局限性,即为了加快查询速度,需要对每个字段进行索引,这种做法曾被视为前沿技术,但随着数据量的爆炸式增长,已经变得越来越成问题。他将这种数据爆炸归因于诸如微服务的激增、云计算的广泛采用以及欧盟和DORA立法等监管机构对合规性要求的不断提高。
Chris引用了一个惊人的统计数据:99%的可观测性索引数据从未被搜索过,导致了大量计算、存储和运营开销的浪费。基于这一认识,他提出了五项指导原则,以拥抱无索引可观测性:
原则1:将日志和跟踪视为数据库,只对查询所需的基本字段进行索引,就像数据库管理员谨慎管理索引以优化性能和可扩展性一样。
原则2:确保索引和非索引数据均可在几秒钟内查询,这是可观测性用例的关键要求,与传统大数据场景中可容忍较长等待时间不同。
原则3:不要依赖快速存储解决方案来缓解索引效率低下的问题。相反,通过有效管理数据格式,信任较慢的存储,实现经济高效且可持续的数据访问。
原则4:摄取原始数据,然后根据特定用例将其转换为更高效的格式(如指标),从而减小存储和计算占用空间,同时保留原始数据作为事件的真实记录。
原则5:拥有数据所有权,将数据存储在成本经济的解决方案(如Amazon S3)中,使组织能够灵活利用数据,无论是用于训练机器学习模型、满足合规性要求,还是未来的其他用途。
为了说明这些原则的实际实施,Chris概述了一种利用Open Telemetry进行数据收集、Apache Kafka进行高吞吐量写入、Amazon S3进行数据存储、Amazon Athena进行临时查询的架构,并可选择使用Amazon OpenSearch进行选择性索引和Thanos/Prometheus进行指标管理。
在整个演讲过程中,Chris强调了成本优化和转换逻辑性能的重要性,并承认了每个架构组件所涉及的权衡和注意事项。他指出,仅依赖Athena进行查询可能会带来意外的高成本,从而阻碍工程师探索数据。同样,他也警告了大规模管理Apache Kafka的运营复杂性,建议那些愿意承担额外运营成本的人可以考虑使用Amazon Kinesis作为替代方案。
Chris还强调了高效转换逻辑的关键性,以实时将CDN日志转换为延迟和错误指标为例,因为在需要及时洞察的可观测性场景中,延迟是敌人。
Chris认识到实施这种架构所面临的挑战和风险,因此介绍了他所代表的公司Coralogix,作为一种体现无索引可观测性原则的整体解决方案。Coralogix于2017年推出,目前在全球服务数千家客户,利用Open Telemetry进行数据收集,在客户的账户中使用Amazon S3进行存储,并在内部使用Apache Kafka,由专门的Kafka专家团队负责确保运营顺利。
Chris强调Coralogix全面支持各种数据类型,包括APM、RUM、SIM等,覆盖了从浏览器到后端数据库和网络基础设施的整个应用程序堆栈。他暗示即将推出的产品增强功能,承诺在未来几周内推出令人兴奋的新功能。
在成本方面,Chris表示Coralogix的定价模式非常简单,仅根据摄取的数据量(GB)向客户收费,不收取任何额外费用,即使是支持费用。他分享了客户成功案例,声称大多数从Datadog等解决方案迁移过来的客户都能节省15%到70%的成本,而从Splunk迁移过来的客户甚至可能节省高达80%的成本。
Chris将这些成本节省归功于Coralogix的无索引方法,使客户能够优化数据管理策略,只对最关键的数据进行选择性索引,而将其余数据存储在成本经济的解决方案(如Amazon S3)中。他展示了一些日志密集型用例的客户案例,如亚马逊云科技 Media Tailor和CloudFront CDN,他们受益于Coralogix能够在不索引的情况下以“监控级别”摄取日志,从而可以触发警报、更新仪表板、生成指标,并直接从S3查询数据,成本仅是传统解决方案(如Amazon CloudWatch)的一小部分。
为进一步展示Coralogix平台的强大功能和灵活性,Chris演示了其查询语言Dataprime,该语言可直接查询存储在S3中的非索引数据。他演示了一个示例查询,检索不在特定子网内的不同源IP地址,并将其与WAF阻止事件和来自CloudFront的HTTP流量关联,展示了平台在无需预先索引的情况下执行复杂数据分析的能力。
在整个演讲过程中,Chris强调了远离“索引优先”心态的范式转变,倡导一种更加负责任、以用例为驱动的数据管理方式。他将Coralogix定位为一种面向未来的解决方案,不仅能降低成本,还能提高数据可访问性,使组织能够战略性地利用数据,而不会被企业“勒索付费墙”所束缚。
总之,Chris在亚马逊云科技 re:Invent 2024大会上的演讲介绍了“无索引可观测性”作为传统索引方法的一种引人注目的替代方案。通过拥有数据所有权、高效转换和选择性索引等原则,组织可以降低可观测性成本,同时保持对数据的有效访问。Coralogix作为一种体现这些原则的整体解决方案,提供了一个全面的可观测性平台,采用了经济高效且灵活的数据管理方式。
下面是一些演讲现场的精彩瞬间:
演讲者概述了本次演讲的议程,涵盖了一种架构模式、数据管理理念、高效数据处理的重要性以及实现该解决方案的Amazon工具和架构。

演讲者强调了合规性的重要性,特别是新的DORA法规要求欧盟的IT提供商和金融公司必须满足最低数据覆盖要求。

演讲者指出对可观察性数据进行索引的低效率,99%的数据从未被搜索过,30%的数据根本没有被使用,这表明需要优化和更智能地利用数据。

“无索引”的原则是避免将自己的索引作为默认选择,就像无服务器架构避免将自己的服务器作为首选一样。

演讲者强调了实时数据转换的重要性,以及使用Amazon Lambda函数构建高效、经济的可观察性管道的好处。

Coralogix可以节省高达70%的成本(与数据扣减解决方案相比),高达80%的成本(与Splunk相比),因为它只对索引数据收费,并提供免费支持。

Coralogix引入了一种无索引方法,可以降低成本、提高数据可访问性,并提供尖端的APM、RUM和SIM功能,无需承担索引或公司数据限制的负担。

总结
在不断演进的可观测性领域中,索引一切的传统方法已经变得昂贵且低效。这篇演讲深入探讨了“无索引可观测性”的概念,这是一种范式转变,有望降低成本、提高数据利用率并提高运营效率。
核心论点围绕着这样一个想法:绝大多数被索引的可观测性数据从未被搜索过,使得索引过程成为一种浪费。相反,演讲者建议将遥测数据视为数据库,只根据预期查询对必要字段进行索引。这种方法涉及将日志和跟踪存储在数据库中,确保一切都可在几秒钟内查询,并利用成本更低的存储解决方案,如Amazon S3。
该架构结合了Open Telemetry用于数据收集、Apache Kafka用于高吞吐量写入、Amazon S3用于存储,以及Amazon Athena和Thanos等工具用于查询和将数据转换为指标。通过采用这种无索引方法,组织可以大幅降低存储成本,提高数据可访问性,并对数据获得更大控制权。
演讲者强调拥有和有效利用数据的重要性,因为数据代表了公司的命脉,尤其是在生成式人工智能时代。演讲最后呼吁与会者重新评估其数据管理策略,并接受无索引可观测性理念,这有望彻底改变组织处理可观测性和数据利用的方式。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

被折叠的 条评论
为什么被折叠?



