
大数据
文章平均质量分 83
记录数据相关的工具、及知识点
Cherry Xie
喜欢学习,只是因为知识能让我更好地理解与处理遇到的事情。技术上比较全面,具备小程序、全栈、web3、数据分析、人工智能的开发经验。目前从事人工智能相关工作,欢迎知识理解上的交流。
展开
-
kafaka之部署与数据流
总的来说,Kafka 的数据流涉及到主题、分区、生产者、消费者、Broker 以及复制机制等多个概念,共同构成了一个高度可扩展、可靠的分布式消息系统。生产者和消费者可以通过配置来控制数据的可靠性级别,如数据的写入副本数量,以及消费者的消费模式(at-least-once, at-most-once, exactly-once)。如果某个 Broker 发生故障,Kafka 会自动将该 Broker 上的分区副本切换到其他 Broker 上,确保数据不会丢失。根据需要,可以调整主题的副本因子和分区数量。原创 2024-07-01 08:45:00 · 806 阅读 · 0 评论 -
数据处理之向量化
向量化是一种将非数值型数据转换为数值型数据的技术,它在机器学习和深度学习领域广泛应用。原创 2024-06-25 08:45:56 · 2033 阅读 · 0 评论 -
elasticsearch的查询原理
正排索引是一种常见的索引结构,它将文档 ID 映射到文档内容。而倒排索引则相反,它将词语映射到包含该词语的文档 ID 列表。原创 2024-06-24 08:45:00 · 2844 阅读 · 0 评论 -
离线数仓之MaxCompute
MaxCompute(原名ODPS,Open Data Processing Service)是一种典型的离线数仓解决方案。它是由阿里巴巴集团自主研发的大数据计算和存储平台,旨在支持大规模数据处理和分析。对于实时数据处理,MaxCompute本身并不是一个适用的解决方案,因为它主要专注于离线批处理任务。MaxCompute 提供了一个高度可扩展的分布式计算引擎,可以处理EB级别的结构化和非结构化数据。原创 2024-06-01 08:48:12 · 1478 阅读 · 0 评论 -
StarRocks、Hive、Druid、ClickHouse
Druid是一种多维度、列式存储的数据存储和查询引擎,专注于实时分析和快速查询。它支持高度聚合的数据模型,适用于OLAP(联机分析处理)场景。原创 2024-05-30 08:54:53 · 1188 阅读 · 0 评论 -
分布式爬虫之Scrapy实例
在中间件中引入了 Redis 作为分布式去重存储。每个爬虫节点都会将已经抓取过的 URL 存入 Redis 集合中,避免重复抓取。process_request 方法会先检查 Redis 中是否已经存在该 URL,如果存在则跳过该请求。然后将 URL 推送到 Kafka 队列中。在 start_requests 方法中,爬虫节点会从 Kafka 消费任务,并再次检查 Redis 中是否已经抓取过该 URL,避免重复抓取。整个过程中,数据写入 Elasticsearch 的逻辑保持不变。原创 2024-05-27 08:39:47 · 616 阅读 · 0 评论 -
分布式搜索引擎之Elasticsearch
Elasticsearch是一个开源的分布式搜索和分析引擎,用于处理大规模数据的搜索、分析和可视化。它是基于Apache Lucene库构建的,提供了强大的全文搜索、实时数据分析和复杂查询的功能。原创 2024-05-25 08:36:45 · 1220 阅读 · 0 评论 -
深度学习之Pytorch
PyTorch 是一个非常流行的开源机器学习库,它被广泛应用于各种深度学习和科学计算领域。使用 PyTorch 的 nn 模块定义一个 ResNet18 模型修改最后一层全连接层的输出大小为 10 (CIFAR-10 有 10 个类别)使用 PyTorch 的 nn 模块定义一个双向 LSTM 模型添加一个全连接层进行二分类 (正向/负向情感)使用 PyTorch 的 nn 模块定义一个 LSTM 时间序列模型输入为 time-lag 特征,输出为下一个时间步的股票价格。原创 2024-05-22 08:41:15 · 1230 阅读 · 0 评论 -
python之pandas模块
Pandas 是一个功能强大的数据分析和处理库,提供了多种数据结构来处理和操作数据。Pandas 是建立在 NumPy 之上的库,并且集成了 NumPy 的功能。Pandas 提供了高级的数据结构和数据操作工具,使得数据处理和分析更加方便和灵活。Pandas 中的核心数据结构,如 Series 和 DataFrame,可以看作是对 NumPy 数组的扩展。它们提供了更多的功能和灵活性,使得数据处理更加直观和高效。原创 2024-05-21 08:40:32 · 877 阅读 · 0 评论 -
实时分析数据库之Druid
Druid是一个开源的实时分析数据存储和查询引擎,专门设计用于快速查询和分析大规模的实时和历史数据。它最初由MetaMarkets开发并于2015年开源。原创 2024-05-20 09:58:22 · 2684 阅读 · 0 评论 -
数据仓库之ClickHouse
这种列式存储的特点使得ClickHouse在查询时可以只读取和处理所需的列数据,减少了不必要的数据读取和处理开销,提高了查询性能。你可以使用多种方式将数据加载到ClickHouse中,如使用ClickHouse提供的命令行工具、使用ClickHouse的客户端驱动程序编写自定义的数据导入脚本,或者使用ETL工具等。它可以处理海量的数据,并提供快速的查询和聚合功能,以支持复杂的数据分析任务。ClickHouse提供了近实时的数据处理和查询能力,可以在数据不断写入时进行并行的数据分析和查询操作。原创 2024-05-18 09:07:31 · 918 阅读 · 0 评论 -
行式存储与列式存储
行式存储将完整的记录按行存储,使得随机写入和事务处理更加高效。当需要频繁进行数据插入、更新和删除操作时,行式存储通常更为合适。原创 2024-05-17 11:13:38 · 951 阅读 · 0 评论 -
数据仓库之StarRocks
Palo,中国的互联网公司百度开发并开源的,后更名为doris。StarRocks是一款由doris的一个分支演化而来的、开源分布式列式存储数据库。旨在提供高性能、高可靠性和低延迟的大数据分析和查询服务。原创 2024-05-16 08:48:32 · 1946 阅读 · 0 评论 -
StarRocks与ClickHouse
StarRocks采用多维分析模型(OLAP)的思想,支持星型模式和雪花型模式。它提供了维度和度量的概念,适用于多维数据分析。而ClickHouse则更加倾向于原始的列式存储模型,适用于海量数据的高性能查询。原创 2024-05-16 08:48:02 · 491 阅读 · 0 评论 -
消息队列之kafaka
消费者可以以不同的方式进行消息的获取,例如按照时间顺序、按照分区顺序或按照自定义的消费逻辑。每个消费者组都有一个唯一的标识符,并且每个分区只能被同一个消费者组中的一个消费者消费。当有多个消费者组订阅相同的主题时,消息将被复制并传递给每个消费者组的一个消费者。生产者将各种应用、系统或设备生成的日志数据发送到Kafka中,消费者可以实时消费这些日志数据进行实时分析、监控和报警等。多个消费者组可以同时消费同一个主题中的消息,每个消费者组内的消费者可以并行地消费各自分配的分区,从而有效地处理大规模的数据流。原创 2024-05-13 10:34:56 · 1403 阅读 · 0 评论 -
Apache大数据处理与分析之常见组合
在大数据处理和分析领域,有许多工具和框架可以组合使用,以满足不同的需求。原创 2024-05-12 08:45:00 · 319 阅读 · 0 评论 -
向量化计算
在数学和计算机科学中,向量是指由一组有序数值组成的对象。它是多维空间中的一个点或位置,并具有方向和大小。向量通常用于表示和处理多个相关的数值或数据。一个向量可以包含任意数量的元素,这些元素按照特定的顺序排列,并可以用于表示一组相关的特征、属性或数值。向量在多个领域中都有广泛的应用,包括线性代数、几何学、物理学、机器学习等。原创 2024-05-11 08:45:00 · 499 阅读 · 0 评论 -
流式处理框架之flink
Apache Flink 是一个开源的流式处理框架,旨在处理和分析大规模、高吞吐量的实时数据流。与传统的批处理框架不同,Flink 支持事件驱动的流式处理,能够以低延迟和高吞吐量处理数据,并提供准确的结果。原创 2024-05-10 08:45:00 · 936 阅读 · 0 评论 -
OLAP与OLTP
OLTP(联机事务处理,Online Transaction Processing)是一种数据库处理方式,用于支持日常的交易和操作。它主要用于处理实时的、交互式的、频繁的数据库事务操作,例如在线购物、银行交易、航班预订等。原创 2024-05-10 08:45:00 · 317 阅读 · 0 评论 -
列存储数据库之MonetDB
MonetDB是一个高性能的列存储数据库系统,专注于分析和科学计算领域。它提供了许多优化和创新的功能,使得它在处理大规模数据和复杂查询时表现出色。在数据导入完成后,您可能需要进行数据定义操作,如创建表、定义列、设置约束等。您可以使用SQL语句或MonetDB提供的客户端接口来执行这些操作。原创 2024-05-09 08:45:00 · 1634 阅读 · 0 评论 -
离线和实时数据处理的设计区别
离线数据处理通常关注大规模数据集的批处理,处理时间可以从几分钟到数小时甚至更长。因此,离线处理可以容忍较高的数据延迟,不需要实时或接近实时的结果。而实时数据处理要求尽可能低的延迟,通常在毫秒或秒级别内提供实时响应。原创 2024-05-09 08:45:00 · 677 阅读 · 0 评论 -
数据仓库之Hive
Apache Hive 是一个开源的数据仓库基础架构,用于在大规模数据集上进行数据汇总、查询和分析。它提供了一个类似于 SQL 的查询语言(HiveQL),使用户能够通过类似于传统数据库的查询方式来处理大规模的结构化和半结构化数据。Hive 基于 Hadoop 生态系统构建,利用 Hadoop 的分布式计算能力和存储系统(如 HDFS)来处理大规模数据。它将用户的查询转化为一系列 MapReduce 作业(在较新版本中也支持基于 Tez、Spark 等引擎),并在底层执行这些作业来完成查询操作。原创 2024-05-07 13:10:10 · 1369 阅读 · 0 评论 -
数据仓库之Hologres
Hologres是阿里云推出的一种云原生的实时分析型数据仓库。它是基于开源项目Apache Hudi(Hadoop Upserts Deletes and Incrementals)进行扩展和优化的。Hologres提供了高性Hologres是阿里云推出的一种云原生的实时分析型数据仓库。它是基于开源项目Apache Hudi(Hadoop Upserts Deletes and Incrementals)进行扩展和优化的。Hologres提供了高性能、可扩展、实时的数据存储和分析能力。原创 2024-05-08 08:45:00 · 4595 阅读 · 0 评论