
大数据
文章平均质量分 95
大数据由大量、多样、复杂且无法以传统方式处理的数据集组成。大数据可以包括结构化和非结构化数据,并且通常存储在数据湖或数据仓库中。随着组织的发展,大数据对于收集业务洞察和分析变得越来越重要。大数据区域包含了解数据存储、数据建模、ELT、ETL 等所需的资源。
晨曦_子画
这个作者很懒,什么都没留下…
展开
-
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
本文探讨了不同存储格式(特别是 Parquet、Avro 和 ORC)对 Google Cloud Platform (GCP) 上大数据环境中查询性能和成本的影响。本文提供了基准测试,讨论了成本影响,并提供了根据特定使用案例选择合适的格式的建议。在大数据生态系统中,Parquet 和 ORC 等列式格式以及 Avro 等基于行的格式因其针对特定类型的查询和处理任务的优化性能而被广泛使用。本研究的主要目的是评估不同的存储格式(Parquet、Avro、ORC)如何影响大数据环境中的查询性能和成本。原创 2024-09-12 17:26:06 · 649 阅读 · 0 评论 -
释放搜索的力量:关键词、相似性和语义解释
由于我们的搜索查询是 “Machine Learning”,因此关键字搜索会查找完全匹配的文本,并且仅返回包含 “Machine Learning” 的文本。相同的搜索查询“机器学习”在与语义搜索一起应用时,会产生与机器学习概念相关的文本,例如“AI 和数据驱动的决策正在改变行业”和“神经网络是许多 AI 系统的关键组成部分”。现在,我们已经了解了各种搜索技术的上下文,我们已经设置了能够搜索的文档,让我们看看基于每种搜索技术的搜索查询的输出。一种将搜索查询与文档中找到的搜索查询进行匹配的传统方法。原创 2024-09-13 17:19:38 · 209 阅读 · 0 评论 -
使用 Apache Spark 和 Deequ 分析大数据集
例如,如果 Deequ 在数据集中检测到大量不完整的记录,您可以调查原因(无论是数据收集中的缺陷还是数据输入中的错误)并进行纠正,从而提高数据的整体质量。利用 Deeq 的 Check 功能,您可以验证是否符合预定义的条件,例如预期的记录计数,以自动标记这些问题。使用 Deequ,您可以轻松设置检查以确保每条客户记录都是完整的,电子邮件地址遵循有效的格式,或者不存在重复的条目。通过这些步骤,您的系统现在可以使用 Spark 和 Deeq 执行强大的数据质量检查,为即将到来的项目中的深入数据分析铺平了道路。原创 2024-09-12 11:53:47 · 1052 阅读 · 0 评论 -
Snowflake 如何通过 Apache Iceberg 和 Polaris 为大数据的未来提供动力
Snowflake 的使命是让每个组织都成为数据驱动型组织。凭借围绕 Apache Iceberg 的最新创新和 Polaris 的推出,这家数据云公司使开发人员、工程师和架构师能够比以往任何时候都更快、更轻松地利用大数据获得变革性的业务见解。原创 2024-09-14 08:59:20 · 521 阅读 · 0 评论 -
探索使用 CockroachDB、Redpanda 和 Kafka Connect 将数据实时摄取到 Snowflake 中
本文以 “Tour of Snowflake ingestion using CockroachDB and Redpanda Connect” 中的先前讨论为基础,在这篇文章中,我们研究了使用 Redpanda Connect 和 Snowpipe 以批处理模式将更改源从 CockroachDB 流式传输到 Snowflake 的过程。在这里,我们将重点转移到 Kafka Connect,并演示如何利用批处理和流式处理模式将数据摄取到 Snowflake 中。下一步是在流式处理模式下配置连接器。原创 2024-09-14 09:01:16 · 399 阅读 · 0 评论 -
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
本文探讨了不同存储格式(特别是 Parquet、Avro 和 ORC)对 Google Cloud Platform (GCP) 上大数据环境中查询性能和成本的影响。本文提供了基准测试,讨论了成本影响,并提供了根据特定使用案例选择合适的格式的建议。在大数据生态系统中,Parquet 和 ORC 等列式格式以及 Avro 等基于行的格式因其针对特定类型的查询和处理任务的优化性能而被广泛使用。本研究的主要目的是评估不同的存储格式(Parquet、Avro、ORC)如何影响大数据环境中的查询性能和成本。原创 2024-09-14 09:06:07 · 467 阅读 · 0 评论