
大数据
文章平均质量分 93
大数据相关技巧
markvivv
这个作者很懒,什么都没留下…
展开
-
【译】MongoDB 性能最佳实践指南
MongoDB 是面向开发高性能应用程序的现代开发人员的主要 NoSQL 文档数据库。MongoDB 采用类似 JSON 的文档,以水平扩展和负载平衡著称,为开发人员提供了定制化和可扩展性之间的绝佳平衡。但是,与其他高性能工具一样,MongoDB 在熟悉业务的专家手中才能发挥最佳性能。性能问题可能表明数据库没有尽最大努力工作,而特定的优化可以带来更好的性能。在本篇文章中,我们将重点介绍如何使用 MongoDB 实现大规模性能。请记住,我们要介绍的最佳实践并不是详尽无遗的(这需要更长的篇幅)。原创 2023-12-27 16:28:46 · 1757 阅读 · 0 评论 -
【译】OpenMetadata 与 DataHub: 架构、功能、集成等方面的比较
OpenMetadata 是一个开源元数据存储库,由 Uber 元数据基础架构背后的团队构建。DataHub 是 LinkedIn 推出的一款开源数据编目工具。这两款工具在数据编目、搜索、发现、管理和质量方面提供了类似的功能。在本文中,我们将比较 OpenMetadata 和 DataHub 的架构、技术栈、元数据建模和摄取设置、功能和集成。OpenMetadata 和 DataHub 是目前最流行的两种开源数据编目工具。这两个工具在功能上有很大的重叠,但也有一些不同之处。原创 2023-12-27 08:54:24 · 5307 阅读 · 2 评论 -
【译】DataHub:元数据管理的三代技术架构解析
十年前,当我开始在 LinkedIn 工作时,公司刚刚开始经历数据的数量、种类和速度的极速增长。在接下来的几年里,我和 LinkedIn 数据基础架构团队的同事们开发了EspressoDatabus和Kafka等基础技术,以确保 LinkedIn 能够在下一波增长浪潮中生存并茁壮成长。几年后,我成为当时规模相当小的 “数据分析基础架构” 团队的技术负责人,该团队负责运行和支持 LinkedIn 的 Hadoop 使用,还负责维护横跨 Hadoop 和 Teradata 的混合数据仓库。翻译 2023-09-15 23:12:14 · 1145 阅读 · 0 评论 -
HDP 3.1.4.0 生产环境安装手册
Hadoop主要有开源社区版和云托管、厂商发行三大类型,开源社区版安装需要进行非常复杂的配置操作,云托管只能买对应的服务,无法获取到安装包,典型的有aws,azure(其实就是hdp),阿里云,腾讯云。厂商发行国外有CDH、HDP、MapR,国内有华为的FunsionInsight HD,都是基于开源的进行封装或者改造。原创 2023-08-30 17:34:49 · 2017 阅读 · 4 评论