大数据的应用
文章平均质量分 81
随着企业发展,大多数据都会经历一个大数据实时分析阶段,如何利用工具快速计算?
云台095
编程是一种美德,是促使一个人不断向上发展的一种原动力。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度翻页导出导致慢SQL,mysqlCPU飙升优化方案
慢SQL原因分析:1.深度翻页2.多表JOIN3. 大IN4. id倒排序本文针对深度翻页的优化进行探讨。原创 2023-09-04 14:33:09 · 1429 阅读 · 0 评论 -
Raft协议详解
Raft 协议是一种分布式一致性算法,由 Diego Ongaro 和 John Ousterhout 在 2013 年提出。它通过一种领导者选举机制,将一个集群中的节点组织成一个虚拟的共享日志,从而实现分布式系统的一致性。Raft 协议的核心思想是将一组节点分为三种角色:领导者(leader)、跟随者(follower)和候选人(candidate)。这三种角色通过一系列的消息交互进行通信,以确保共享日志中的数据是一致的。具体来说,Raft 协议的实现分为两个阶段:领导者选举和日志复制。原创 2023-04-02 00:21:57 · 2318 阅读 · 0 评论 -
TiDB一个大数据实时计算的存储利器
TiDB是由中国PingCAP公司开发的,是一个开源的分布式NewSQL数据库。它最初的设计目标是解决传统关系型数据库的瓶颈和限制,实现高可用、可扩展和高性能的数据存储和处理。原创 2023-04-01 23:52:26 · 1879 阅读 · 0 评论 -
实时分析海量新数据的难点 和解决方案
解决方案:使用分布式计算和存储技术,如Hadoop、Spark、Kafka等,将数据分散存储在多个节点上,同时进行分布式计算和处理,以实现数据的实时处理和分析。解决方案:采用数据清洗、去重、纠错等技术,对数据进行处理和筛选,同时增加数据验证和监控机制,保证数据的质量和准确性。1. 数据量和数据流速度的挑战:实时分析海量新数据,需要处理大量的数据和高速的数据流,这会对计算和存储带来很大的挑战。解决方案:使用分布式计算和存储技术,采用分布式算法和实时计算引擎,提高处理速度和系统的可扩展性和容错性。原创 2023-04-02 00:07:23 · 1596 阅读 · 0 评论 -
FlinkCDC的介绍和原理
总的来说,FlinkCDC 的原理就是通过解析 MySQL 中的 binlog,抓取到最新的增量数据,并将其转换为 Flink 支持的数据格式,然后将增量数据同步到 Flink 或者其他的计算引擎中进行处理。FlinkCDC 是阿里巴巴开源的一个基于 Flink 的分布式流式数据同步工具,它可以将 MySQL 数据库中的增量数据进行实时抓取并同步到 Flink 或者其他的计算引擎中进行处理。FlinkCDC 将抓取到的增量数据转换为 Flink 支持的数据格式后,交由 Flink 进行进一步的处理。原创 2023-04-02 00:14:59 · 2117 阅读 · 0 评论
分享