
本文字数:3137;估计阅读时间:8 分钟
作者:ClickHouse Team
本文在公众号【ClickHouseInc】首发

自 2015 年以来,Cognitiv 一直使用深度学习技术来优化广告机会的实时竞价。其深度学习广告平台每秒处理数百万次广告机会。当网页加载且广告位可用时,Cognitiv 的算法会代表客户探索这些机会并进行竞价,根据 KPI 优化广告效果。
Cognitiv 成功的核心在于其复杂的机器学习模型,这些模型支持其竞价算法。这些模型依赖于海量数据,这些数据必须高效地管理、处理和分析,以使 Cognitiv 的数据团队能够快速迭代。
“任何做过机器学习的人都会告诉你,数据是模型中最重要的部分。”工程师 Jason Ruckman 说,“架构很重要,但真正关键的是数据。”
Cognitiv 转变了其数据管理方法,集成了 ClickHouse,以提升性能并简化操作。这个改进不仅使 Cognitiv 能够轻松处理海量数据,还使其数据团队能够开发更先进的机器学习模型,巩固了公司在程序化广告购买领域的领导地位和创新形象。
更高效的离线特征存储解决方案
当有人访问网站时,像 Cognitiv 这样的平台会立即分析数据,以确定显示的最佳广告,使用复杂的算法和机器学习来实时优化定位和竞价。训练这些模型需要巨大的计算能力,同时还需快速高效地处理和分析大量数据。
Jason 于 2021 年加入 Cognitiv 时,公司当时的数据解决方案既昂贵又低效。查询通常需要很长时间才能完成,导致延迟增加和成本上升。这些系统也难以管理,需要大量的维护和调整。这些问题限制了 Cognitiv 进行实验和改进模型的能力,而这对于他们的广告购买算法至关重要。
“数据科学作为一门学科与工程学不同,工程学可以按阶段有条不紊地进行,”Jason 说。“迭代时间对于数据科学团队的工作流程来说至关重要。”
为了寻找更好的解决方案,Cognitiv 团队开始评估可以支持其离线特征存储的数据库系统,这对于训练新机器学习模型的工程工作流程非常重要。他们考虑了几种替代方案,但每种解决方案虽然强大,却有显著的缺点。高成本和数据摄取及查询中的延迟在 Cognitiv 所需的规模上是不可接受的。
最终,他们发现了 ClickHouse,这是一种以其极快性能和高效率而闻名的开源列式数据库。Jason 说,他被 ClickHouse 处理大规模数据摄取和复杂查询的能力所吸引,且延迟极低。其作为广告技术产品的背景也意味着它具有与 Cognitiv 用例相关的功能。最重要的是,由于其高效的资源使用,ClickHouse 承诺了大量的成本节省。
“作为一家拥有大数据集的小公司,成本对我们很重要,”Jason 说。“ClickHouse 很快,但其真正的价值在于让我们更好地利用资源。”
构建概念验证 (POC)
2021 年 9 月,Cognitiv 团队启动了概念验证 (POC) 阶段。他们首先建立了一个小型的 ClickHouse 集群,以测试其能力。POC 集中于一个特定的用例:查找匹配某些模式的数据。这涉及扫描大型数据集和执行复杂的连接,Jason 说“这在以前的架构和数据库管理系统中是不可行的”。
“ClickHouse 之所以适合这个用途,是因为我们拥有非常庞大的历史数据,并且可能对长时间内的特定序列感兴趣,但只针对少数标识符,”Jason 解释道。他认为 ClickHouse 的索引结构和数据压缩能力使其非常适合这个用例,能够更快速和准确地执行这些操作。
Jason 解释道。他认为 ClickHouse 的索引结构和数据压缩能力使其非常适合这个用例,使他们能够更快速和准确地执行这些操作。
事实证明,他是对的。ClickHouse 能够高效地处理以前需要数小时甚至数天才能完成的查询。这对 Cognitiv 的数据团队来说非常有价值,使他们能够快速迭代和改进机器学习模型。团队对 ClickHouse 即使在数据量增加时仍能保持高性能印象深刻。
成功的 POC 表明,ClickHouse 不仅能够满足 Cognitiv 在这个特定用例中的需求,还可以满足其整个数据基础设施的需求。
转向 ClickHouse Cloud
原始的 POC 集群在 2022 年不断扩展。到年底,Cognitiv 团队发现了更多适合使用 ClickHouse 的用例,并决定全面转向 ClickHouse。他们使用 Kubernetes 运维工具构建了自己的生产环境集群。尽管这个配置运行良好,但也带来了一些挑战。
“问题在于升级、扩展和管理硬件配置等方面,”Jason 说。“在 Kubernetes 运维工具上遇到问题时,需要自行解决。我们最终对此感到厌烦。”
当 ClickHouse 团队正在开发 ClickHouse Cloud 时,Cognitiv 开始评估托管服务的潜在好处。他们等待到 2024 年 1 月 AWS 上正式发布云服务后,才进行转换。
为避免运行两个并行集群,Jason 知道主要挑战之一是确保 Cognitiv 的约两拍字节数据能够顺利迁移到 ClickHouse Cloud 而不影响正在进行的操作。
“我们知道这将是一次实战练习,”他说。“ClickHouse 的产品和工程团队反应非常迅速。我们并不指望他们一开始就完美无缺。我们唯一的要求是他们努力工作,他们做到了。”
Cognitiv 迁移到 ClickHouse Cloud 取得了成功。从业务角度来看,提高了效率并简化了操作。对于数据团队来说,缓解了管理数据库的挑战,使他们能够更快迭代并专注于 Cognitiv 的核心业务:提供市场上最好的 AI 驱动广告解决方案。
前路展望

Cognitiv 有雄心勃勃的计划扩展 ClickHouse 的使用。他们目前正在重新设计架构,以优化数据存储和处理能力。接下来,他们计划探索更多 ClickHouse 的功能和高级特性,包括优化查询、减少数据量,以及将 ClickHouse 应用于更多数据科学场景,如数据探索和机器学习模型的准备工作。
“ClickHouse 是我们数据战略的核心,”Jason 说。“它速度非常快且成本效益高,但最重要的是它可以连接到所有数据。访问我们不同的数据真的很容易。如果数据存在,你就可以将其连接到 ClickHouse。这对我们帮助很大。”
Jason 对 ClickHouse 提供的服务赞不绝口,特别是他团队在引入 ClickHouse Cloud 方面的经验。“支持团队非常棒,”他说。“在需要帮助时,有人可以随时联系,真的太好了。”托管服务减轻了团队的很多工作和压力,让他们能专注于更有价值的活动,如改进模型和为客户提供更好的体验。
“使用 ClickHouse,你已经拥有了出色的核心技术和强大的生态系统,”Jason 说。“但使用 ClickHouse Cloud,你获得的不仅是出色的技术支持团队,还有优秀的工程和产品团队。这真的帮助了我们。”
转向 ClickHouse 后,Cognitiv 简化了数据处理,使操作更加用户友好。通过持续改进和创新,Cognitiv 处于保持其在程序化广告购买领域领导地位的有利位置,通过尖端技术和专业的数据管理为客户提供价值。
征稿启示
面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com

联系我们
手机号:13910395701
邮箱:Tracy.Wang@clickhouse.com
满足您所有的在线分析列式数据库管理需求

被折叠的 条评论
为什么被折叠?



