
大数据
文章平均质量分 84
罗晓纯
科技的温度
展开
-
spark读取数据性能提升
spark默认的jdbc只会用单task读取数据,读取大数据量时,效率低。本文阐述了如何利用分区字段对数据进行划分,增加task数量,提升性能原创 2024-09-18 11:34:41 · 766 阅读 · 0 评论 -
Clickhouse 为什么Projection不生效
本文介绍Clickhouse Projection失效的原因,列举了一些失效案例,并对Projection触发条件进行总结和分析。原创 2023-03-02 16:06:56 · 821 阅读 · 2 评论 -
Clickhouse 消除由group by产生的间隙
针对由group by产生的间隙问题,如时间不连续,本文提供了一种从Clickhouse层面的解决思路原创 2022-06-28 22:46:05 · 843 阅读 · 18 评论 -
Clickhouse 从S3/Hive导入数据
我们的埋点数据上传到S3,大概是每天10亿条的数据量级别。最近花了一些时间思考和学习如何将每天如此大量的数据从S3导入到Clickhouse,为后续的实时查询做准备。原创 2022-06-23 20:25:09 · 2230 阅读 · 2 评论 -
Yarn主导资源公平性调度算法
最近在看《Hadoop权威指南 第4版》,其中对主导资源公平性的介绍可能由于翻译原因,出现了一处错误,经查资料理解了drf算法。希望本文能帮助到同样在读此书并对此处有疑惑的同学。原创 2022-04-18 22:48:34 · 3234 阅读 · 0 评论 -
Mysql精度丢失踩坑记录
原创 2022-04-16 00:40:32 · 3812 阅读 · 0 评论 -
Clickhouse 新功能 Projection
本文详细介绍了Clickhouse新投产功能Projection的用法、案例和原理解析原创 2022-03-22 23:47:23 · 4836 阅读 · 5 评论 -
Clickhouse MergeTree排序键建立后还能修改吗?
这个问题需要分情况讨论,首先有2个前提:MergeTree主键建立以后是不能修改的主键必须和排序键一致或是排序键的前缀,即主键是A,排序键可以是A或(A,B),但不能是B原创 2022-03-07 21:57:34 · 5764 阅读 · 2 评论 -
Clickhouse MergeTree分区原理
MergeTree简介MergerTree(及其家族)是Clickhouse最强大的表引擎。发生insert操作时,MergeTree以数据片段的方式快速写入数据,后台线程会定期以一定规则对数据片段进行Merge。在大数据场景中,相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。更多介绍可以详见官网。原创 2022-02-25 21:32:13 · 738 阅读 · 0 评论 -
Clickhouse 空缺值处理
由于这样那样的原因,我们从各个端收集回来的数据不一定是完整的,经常会碰到某些关键字段缺失的情况。如果做一般的大数据分析或者数据可视化,小部分的缺失其实影响不大,在预处理把含有空缺值的整条数据删掉就行了。但是也有一些特定的场景下不能这么简单了事,需要对数据进行补全。本文介绍在clickhouse中进行空缺值处理的几种方法。原创 2022-01-14 23:16:56 · 5193 阅读 · 0 评论 -
Clickhouse表连接
背景 datas表是原始数据表,现在要对datas表中的app类型进行分析。于是需要建立一张app名称与app类型关系表,对两张表进行连接查询。方案一简单粗暴,直接建立关联表,直接进行join关联。--建立关联表create table app_type_mapping(`m_app` String,`m_type` String)ENGINE = TinyLog--插入数据insert into app_type_mapping values('app...原创 2021-12-03 17:37:55 · 5904 阅读 · 1 评论 -
Clickhouse将json拆分成列
背景 前段时间在做一个功能,中间有个环节是需要将一个json自由文本字段从大宽表中抽取出来,转换成列,以便后续的计算和分析。 json文本格式如下:{ "launch_time": "3;5;1", "date": "2021-01-02", "total_time": "72;34;0", "pkg": "com.android.launcher;com.android.settings;com.google.android.set...原创 2021-11-29 22:16:12 · 4722 阅读 · 1 评论 -
clickhouse入门学习笔记
clickhouse简介 2016年,俄罗斯Yandex开源,列式存储数据库,底层是C++,用于在线分析处理查询(OLAP)。Clickhouse提供了相当丰富的内置函数满足不同业务需求,并且具备高吞吐低延时的特点,官网称简单查询,clickhouse的处理速度大约是1-2亿行每秒。另外,clickhouse的官方文档是我见过最简单明了的开源文档。行式存储适合插入、更新和删除场景列式存储适合查询场景(想查年龄这列,直接拿出来就行)clickhouse的缺点:没有完整的事务支持。原创 2021-11-26 11:17:14 · 898 阅读 · 0 评论 -
Hadoop学习笔记二 集群环境搭建
rm -rf test.txt零、准备工作 准备一台虚拟机工具(vmware和virtualbox都行),装3台Linux虚拟机,本文装的是CentOS7。 集群规划: hadoop001 192.168.164.10 hadoop002 192.168.164.20 hadoop003 192.168.164.30 HDFS集群 NameNode ...原创 2021-08-08 23:28:19 · 751 阅读 · 2 评论 -
Hadoop学习笔记一
大数据简介大数据是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。目前大数据技术已经广泛应用于众多行业,如仓储物流、电商销售、汽车、电信、生物医学、人工智能、智慧城市等等。大数据的特点(5V)Volume(大量)数据单位:GB -> TB -> PB -> ZB -> YB -> BB -> NB -> DBIDC预...原创 2021-08-08 12:11:00 · 523 阅读 · 1 评论