
大数据
文章平均质量分 77
子牙-神仙难躲一溜烟
从事软件研发工作10多年,对互联网相关技术有深入研究和独到见解
展开
-
Shared Everthting、Shared Nothing、和Shared Disk
elasticsearch也是一种MPP架构的数据库,Presto、Impala等都是MPP engine,各节点不共享资源,每个executor可以独自完成数据的读取和计算,缺点在于怕stragglers,遇到后整个engine的性能下降到该straggler的能力,所谓木桶的短板,这也是为什么MPP架构不适合异构的机器,要求各节点配置一样。其采用shared nothing架构(MPP),主机,操作系统,内存,存储都是自我控制的,不存在共享。节点之间的信息交互是通过节点互联网络实现。原创 2022-12-15 10:00:07 · 355 阅读 · 0 评论 -
Redis 过期key 清除规则
这里写自定义目录标题redis清除过期key,你不知道的事情1.周期性删除频率2.每次删除过期key的规则3.redis过期key 将浪费redis,近25%的空间,如果存在大key,超过1M的,需要自定义清除逻辑redis清除过期key,你不知道的事情1.惰性删除2.周期性删除1.周期性删除频率按照配置参数可修改,取值10-500;代表cpu每秒钟触发清除动作的次数2.每次删除过期key的规则1.清除动作时长限制(例如250ms)2.执行后,随机获取20个key,判断过期数量是否超过5个,原创 2022-01-13 09:27:31 · 373 阅读 · 0 评论 -
ClickHouse使用(十四)--基础知识 最终篇
ClickHouse使用(十四)-最终篇欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你原创 2021-08-28 12:14:24 · 909 阅读 · 0 评论 -
客端日志的收集、存储和分析
客端日志的收集、存储和分析客端日志向来以量大著称,每日几亿,几十亿甚至几百亿也是司空见惯,谈到客端日志的收集,就需要谈到日志收集的时效性和准确性两个课题。对于海量日志数据的存储,常见的hadoop体系和最近流行起来的ClickHouse都是不错的选择,其中的优缺点也是我们讨论的重点。对于海量数据的分析更是一个永恒的话题,在这方面,ClickHouse似乎给出了近乎完美的方案,但是事实是,如果你想在项目中使用它,那对它特点的全面了解,是实现目标的大前提。提示:写完文章后,目录可以自动生成,如何生成可参考原创 2021-08-20 19:31:42 · 1070 阅读 · 0 评论 -
ClickHouse使用(十三)
ClickHouse使用(十三)欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如原创 2021-07-03 10:10:22 · 822 阅读 · 0 评论 -
ClickHouse 使用(十二)
副本与分片概述集群副本Zookeeper 配置方式定义方式ReplicatedMergeTree 原理解析生成一个适合你的列表概述特点:1、依赖ZooKeeper2、表级别的副本3、多主架构,可以在任意副本执行写入和修改4、Block数据分块(1048576)5、原子性,单个block内数据,要么全部成功,要么全部失败6、唯一性 ,单个Block 按照顺序,数据行和大小 计算Hash值,保证唯一性集群单集群 多集群副本ReplicatedMergeTree 复制表;在MergeTr原创 2021-06-14 10:27:12 · 476 阅读 · 0 评论 -
es使用之,更改index的数据类型,并保留原有数据
文章目录一、创建新的 index二、导入数据三、删除 旧的 index四、创建新的 同名 index五、导入旧数据 到 新建的 同名index六、删除过渡数据的index一、创建新的 indexcurl -XPUT “http://localhost:9200/fe_error_2021” -H ‘Content-Type: application/json’ -d ‘{“mappings”:{“fe-error”:{“properties”:{“logType”:{“type”:“keyword”},原创 2021-05-29 15:14:56 · 1067 阅读 · 0 评论 -
ClickHouse使用(十 一)
ClickHouse使用(十 一)文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import n原创 2021-05-29 15:09:44 · 1204 阅读 · 1 评论 -
ClickHouse使用(十)
ClickHouse使用(10)1 引擎1.1File引擎1.2内存类型的引擎1.2.1 Memory1.2.2 Set1.2.3 join 表引擎1.2.4 Buffer1.3 日志类型的表引擎1.3.1 TinyLog1.3.2 StripeLog1.3.2 Log1.4接口类表引擎1.5 Dictionary1.6 Distributed表引擎1.7 其他类型2 数据查询2.1查询子句 with1 引擎能够直接读取本地文件数据,通常用作扩充手段来使用Create table table_n原创 2021-05-16 12:10:24 · 586 阅读 · 0 评论 -
ClickHouse使用(九)
ClickHouse使用(九)1 Kafka表引擎(kafka数据接入clickHouse)一、创建缓存队列二、创建存储数据表三、创建消费视图四.集群环境创建表五.集群删除表操作语句六.JDBC引擎(1)相对于Mysql引擎而言,jdbc引擎可以支持多种数据库,依赖名称为clickhouse-jdbc-bridge 的查询代理服务。clickhouse-jdbc-bridge 是Java实现的Sql代理服务(2)ClickHouse jdbc标准库(3) 下载运行 clickhouse-jdbc-原创 2021-05-04 12:02:37 · 402 阅读 · 0 评论 -
ClickHouse使用(八)
文章目录1 CollapsingMergeTree1.1使用方式?2 VersionedCollapsingMergeTree2.1 CollapsingMergeTree的升级版,对数据写入顺序没有要求,按照版本号来排序需要折叠的数据,实现不需要严格控制写入顺序的3 各种 MergeTree之间的关系1 CollapsingMergeTree以增代删1.1使用方式?如果sign 标记为1 标识这行有效数据,标记为-1标识需要被删除Create table collpase_table(id原创 2021-05-04 11:53:51 · 180 阅读 · 0 评论 -
ClickHouse使用(六)
ClickHouse使用(六)MergeTree 系列表引擎1 六大类表引擎:2 数据TTLMergeTree 系列表引擎1 六大类表引擎:(1)合并树 (2)外部存储 (3)内存(4)文件(5)接口(6)其他(2)合并树家族:ReplacingMergeTree/SummingMergeTree/AggregatingMergeTree/CollapsingMergeTree/VersionedCollapsingTree在MergeTree基础上进行扩展,相关特性在合并的时机提现2 数据T原创 2021-04-11 10:01:11 · 215 阅读 · 0 评论 -
ClickHouse使用(五)
ClickHouse使用(五)分区,索引,标记,压缩数据的协同1.写入2.查询过程分区,索引,标记,压缩数据的协同你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。1.写入(1)每一批数据的写入都会生成分区目录–合并属于同一个分区的分区目录–按照index_granularity(默认8192)生成primary.idx一级索引,二级索引,针对每列生成.mrk数据标记文件 和.原创 2021-04-04 09:32:35 · 147 阅读 · 0 评论 -
ClickHouse使用(四)
ClickHouse使用(四)数据标记数据标记的生成规则数据标记的工作方式数据标记MergeTree 比作一本书,primary.idx 为章节目录,.bin文件中的数据好比这本书中的文字;数据标记文件.mrk,会为章节目录和具体的文字之间建立关系(1)一级章节目录对应的页码信息(2)文字在某个页中的起始位置信息。数据标记的生成规则(1)数据区间和索引标记对齐(1对1 的关系)(都是按照 index_granularity的粒度间隔)(2)数据标记文件.mrk 与 数据文件.bin一一对应,原创 2021-03-28 09:34:19 · 362 阅读 · 0 评论 -
ClickHouse使用(三)
一、数据分区分区以目录形式组织,每个分区独立分开存储。1.分区ID的生成逻辑(1)不指定分区=指定了一个名称为all的分区(2)如果分区键取值属于整型,并且无法转换为日期格式,按照该整形的字符形式输出(3)如果能转换成日期格式的日期类型或者整形,按照日期格式输出(4)其他类型(String,Float)通过128位的Hash算法取其Hash值作为分区ID的取值2.例子:(1)无 all(2)年龄 18,19,20 (分区1:18;分区2:19;分区3:20)(3)日期 2019-原创 2021-03-21 16:01:07 · 606 阅读 · 1 评论 -
ClickHouse使用(二)
一、MergeTree的存储结构1.存储结构table_namepartition_1checksums.txt(保存文件的size和hash验证其他文件的完整性)columns.txt(列字段信息)count.txt(分区下数据总数)primary.idx(一级索引文件,存放稀疏索引)[Column].bin(数据文件,用于存储某一列的数据,压缩文件,默认LZ4)[Column].mrk(列标记文件,保存了.bin文件中数据的偏移量信息。它与稀疏索引对齐,稀疏索引(.idx)-偏移量(.原创 2021-03-06 10:30:15 · 240 阅读 · 0 评论 -
ClickHouse使用(一)
ClickHouse使用(一)安装和部署文章目录ClickHouse使用(一)一、目录结构二、启动服务(1)config.xml 配置文件修改数据默认的保存目录(2)修改默认的存储路径,所以需要将目录的Owner设置为clickhouse用户(3)启动三、客户端的访问接口1.交互式执行2.非交互式执行四、JDBC 默认 8123 ,协议HTTP1.标准形式2.高可用模式,允许多个host,每次随机选择一个进行连接3.实用小工具五、数据定义1.支持完整的DML,insert,select,update原创 2021-02-27 16:37:16 · 646 阅读 · 0 评论 -
漫谈SIMD、SSE指令集与ClickHouse向量化执行
前言ClickHouse之所以会像闪电一样快(“blazing fast”),是多方面优化的结果,包括且不限于:高效且磁盘友好的列式存储,高效的数据压缩,精心设计的各类索引,并行分布式查询,运行时代码生成等。另外,ClickHouse为了最大限度地压榨硬件——尤其是CPU——的性能,实现了向量化查询执行(vectorized query execution)机制。这个名词相对于上面的那些可能没那么平易近人,但它毫无疑问是CK相对于传统OLAP引擎的大杀器。鉴于现有资料中讲解CK向量化执行的内容很少,本文转载 2021-02-16 16:38:28 · 758 阅读 · 0 评论 -
ClickHouse前世今生
这里写自定义目录标题欢迎使用Markdown编前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编提示:文章写完后,目录可以自动生成原创 2021-02-14 22:45:53 · 376 阅读 · 0 评论