- 博客(15)
- 收藏
- 关注
原创 spark on hive问题记录--持续更新
解决方法:规避解决。修改ORC的默认分割策略为:hive.exec.orc.split.strategy=BI进行解决。原因:是由于HaddopRDD生成过程中partitions是会拿参数mapreduce.job.maps或mapred.map.tasks(20)和spark默认分区数(2)做最大值比较,所以导致默认为20。解决方法:通过在启动 Spark-sql 的时候加上 --driver-java-options “-Xss10m” 选项解决这个问题。解决方法:修改该参数就可以将task降下来。
2023-11-16 17:08:43
258
1
原创 Doris介绍
Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!
2023-09-08 21:53:18
293
1
原创 Presto学习之路 -- 01.整体介绍
Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。完整安装包括一个Coordinator和多个Worker。由客户端提交查询,从Presto命令行CLI提交到Coordinator。Coordinator进行解析,分析并执行查询计划,然后分发处理队列到Worker。Presto是完全基于内存的分布式大数据查询引擎,所有查询和计算都在内存中执行。Presto的输入是SQL语句;输出是具体的SQL执行结果。Presto可以对接不同的数据源,例如MySQL、Hive等。
2023-09-08 11:11:50
176
1
原创 Druid 系统深入详解
Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。
2023-09-08 11:00:15
490
1
原创 Hbase简介
HBase基于HDFS来存储数据,但是他存储的数据都是经过自己优化索引后的数据,所以他对数据的存储是非常高效的,比HDFS直接存储文件的性能要高很多,可以作为整个大数据的存储基石。由于HBase对于数据的索引和存储都是在列簇级别进行区分的,所以,通常在使用时,建议一个列簇下的所有列都有大致相同的数据结构和数据大小,这样可以提高HBase管理数据的效率。当一个数据有多个版本时,HBase会保证只有最后一个版本的cell数据是可以查询的,而至于其他的版本,会由HBase提供版本回收机制,在某个时间进行删除。
2023-09-08 10:37:11
154
1
原创 Flume: 数据采集机制
无论数据来自什么企业,或是多大量级,通过部署Flume,可以确保数据都安全、及 时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。Flume的定义Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据;Flume提供对数据进行简单处理,并写到各种数据接收方的能力。简单的说,Flume是实时采集日志的数据采集引擎。
2023-09-08 10:36:22
1787
1
原创 Sqoop原理
Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库。
2023-09-08 10:34:20
320
1
原创 kafka生产者事务踩坑记录
公司需要迁移一个老 spark 项目,之前是消费阿里 LogStore 中的实时数据,处理之后将结果落库。使用的是 spark streaming,batch 时间为 2 分钟。迁移后,需要将 LogStore 切换为 kafka,涉及到了对代码的改动。公司的 kafka 上游生产者发送数据,由于细节的设计需要,生产者开启了事务,以确保数据准且一次的写入 kafka。
2023-07-30 10:23:18
347
1
原创 Kafka零拷贝机制
Kafka之所以那么快,其中一个很大的原因就是零拷贝(Zero-copy)技术,零拷贝不是kafka的专利,而是操作系统的升级,又比如Netty,也用到了零拷贝。
2023-07-29 23:32:01
465
原创 Kafka架构及基本原理简析
Kafka是一个由Scala和Java编写的企业级的消息发布和订阅系统,最早是由Linkedin公司开发,最终开源到Apache软件基金会的项目。Kafka是一个分布式的,支持分区的,多副本的和多订阅者的高吞吐量的消息系统,被广泛应用在应用解耦、异步处理、限流削峰和消息驱动等场景。本文将针对Kafka的架构和相关组件进行简单的介绍。在介绍Kafka的架构之前,我们先了解一下Kafk的核心概念。
2023-07-29 22:52:07
331
原创 成功解决:ERROR:Could not build wheels for pandas, which is required to install pyproject.toml-based
成功解决:ERROR:Could not build wheels for pandas, which is required to install pyproject.toml-based
2023-05-17 12:03:55
7556
4
原创 使用flink的sql-client.sh,测试mysql-->kafka-->kafka-->mysql实时流
使用flink的sql-client测试数据流程mysql-->kafka-->kafka-->mysql
2022-12-10 20:08:54
2758
3
原创 hive中rollup、cube使用方法
当我们业务中需要根据多个维度或者多个粒度统计分析数据的时候,最笨的办法是多次group by 然后union all到一起,这个时候其实可以用rollup、cube来实现,当然要了解这两个函数的原理,如果觉得结果比我们想要的结果多一些,那可以通过grouping sets 灵活的设置分组字段。......
2021-10-09 14:57:02
1482
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人