- 博客(248)
- 收藏
- 关注
原创 即席查询和OLAP的区别是什么?
即席查询是指那些用户在使用系统时,根据自己当时的需求临时定义的查询。是一种在数据仓库中,根据用户需求即时构建并执行查询的方式。
2024-09-19 17:04:19
484
原创 DORIS - DORIS注意事项(二)
Doris 数据表模型上目前分为三类:DUPLICATE KEY, UNIQUE KEY和AGGREGATE KEY。
2024-09-19 09:29:33
450
原创 什么是Bitmap?
所谓的Bitmap就是用一个bit位来标记某个元素对应的VALUE,而KEY即是该元素。由于采用了Bit为单位来存储数据,因此可以大大节省存储空间。
2024-09-18 18:03:33
923
原创 DORIS - DORIS之BloomFilter索引
Bloom Filter(布隆过滤器)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否可能属于这个集合,是由 Bloom 在 1970 年提出的一种多哈希函数映射的快速查找算法。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难,初始状态时,Bloom Filter是一个包含m位的位数组,每一位都置为0。
2024-09-18 10:09:41
1108
原创 DORIS - DORIS之倒排索引
倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,用于存储在全文搜索场景下某个单词在一个文档或者一组文档中的存储位置的映射,它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表,倒排索引主要由“单词词典”和“倒排文件”两部分组成。
2024-09-14 15:58:34
914
原创 DORIS - DORIS之索引简介
(1)最频繁使用的过滤条件指定为 Key字段,自动建前缀索引,它的过滤效果最好,但是一个表只能有一个前缀索引,因此要用在最频繁的过滤条件上,前缀索引比较小,所以可以全量在内存中缓存。建表时会自动取表的 Key 的前 36 字节作为前缀索引。(2)对非 Key 字段如有过滤加速需求,首选建倒排索引,因为它的适用面广,可以多条件组合,次选下面两种索引:A. 有字符串 LIKE 匹配需求,再加一个 NGram BloomFilter 索引。
2024-09-14 15:21:43
567
原创 DORIS - DORIS的分区分桶
在存储引擎方面,Apache Doris 采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。
2024-09-13 14:50:52
2116
原创 SpringCloud - 服务网关(一)
Spring Cloud Gateway作为Spring Cloud生态中的网关,不仅提供统一的路由能力,并且还提供了基于FILTER链方式的网关基本的功能。
2024-09-13 11:31:50
852
原创 大数据 - HIVE3.1.0元数据服务(二)
元数据服务也就是HiveMetastore服务,客户端先连接HiveMetastore服务,HiveMetastore服务再去连接元数据存储的数据库,从而获取相关元数据信息。Derby模式下值为org.apache.derby.jdbc.EmbeddedDriver, MySQL为com.mysql.jdbc.Driver;HIVE将元数据存储在关系数据库中(MySql、Derby),元数据包括数据库信息及表的信息如:表的属性、表的名称、表的列、分区及其属性等。比如使用Derby时的值可以为。
2024-09-12 13:56:45
596
原创 大数据 - OLAP与OLTP的区别
联机事务处理OLTP(on-line transaction processing)和 联机分析处理OLAP(On-Line Analytical Processing)。
2024-09-12 13:54:34
470
原创 APACHE-ATLAS-2.1.0 - 基础运维
(一)SOLR相关1. 如何创建/删除集合?# 1. 删除solr/bin/solr delete -c vertex_indexsolr/bin/solr delete -c edge_indexsolr/bin/solr delete -c fulltext_index# 2. 创建solr/bin/solr create -c vertex_index -force -d conf/solr/solr/bin/solr create -c edge_index -force -d c
2024-09-10 09:38:38
728
原创 APACHE-ATLAS-2.1.0 - 安装MetaStoreEventListener用于实时接收HIVE元数据的变化
安装MetaStoreEventListener用于实时接收HIVE元数据的变化。
2024-09-10 09:37:56
407
原创 DORIS - DORIS的BDBJE简介
Berkeley DB(BDB)是一个开源的数据库,它提供的是一系列直接访问数据库的函数,而不是像关系数据库那样需要网络通讯、SQL解析等步骤。Berkeley DB是一个高性能的,嵌入式的数据库编程库,“嵌 入”是指它内嵌在程序中,而不是说他只应用在嵌入式系统上,它适合于管理海量的,简单的数据。
2024-09-09 10:56:27
689
原创 DORIS - DORIS查询优化之行列混存
什么是点查询?一句话:点查询,就是指根据KEY从数据库中取出一行或几行数据的过程。所谓的「点查询」,指的是在查询数据库表时,通过等值的条件筛选(WHERE 字段名=字段值),一般通过走索引的方式,以非常快的速度,获取到目标结果的查询方式。如果你查询的条件走了索引,且符合条件的目标数据量很小的话,那么这个查询效率就会非常高。
2024-09-09 10:46:31
902
原创 大数据 - 行式存储与列式存储
大多数数据库系统存储一组数据记录,这些记录由表中的列和行组成。表可以水平分区(将属于同一行的值存储在一起),也可以垂直分区(将属于同一列的值存储在一起)。数据库用于存储、检索和管理大量数据,一般情况下,数据库系统采用了两种主要的存储方式:行式存储和列式存储。在数据库管理系统中,数据存储的方式对性能和效率有重要影响,所以用户可以根据业务场景自行选择行存还是列存的数据库。
2024-09-06 15:31:46
1019
原创 Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
2024-09-06 15:17:45
231
原创 DORIS - DORIS行存编码格式JSONB
JSONB(JavaScript Object Notation Binary)是PostgreSQL、MySQL数据库中的一种数据类型,用于存储和查询JSON数据。它提供了在数据库中存储和操作JSON数据的能力,使得数据库能够更好地处理半结构化数据。JSONB是一种半结构化的数据雷系,支持的数据类型包括字符串、数字、布尔值、数组和对象,也可以嵌套存储更复杂的数据结构,比如嵌套的数组和对象。
2024-09-05 14:34:26
810
原创 大数据之数据仓库的分层:ODS/DWD/DWS/ADS
ETL层(Extract-Transform-Load):数据清洗层,存原始数据;ODS层(Operational Data Store):操作数据源层;CDM层(Common Dimensional Model):公共维度模型层,主要包括DWD层(Data Warehouse Detail 数据明细层) 和 DWS层(Data Warehouse Summary 数据汇总层)两部分;ADS层(Application Data Service):数据应用层。
2024-09-05 09:15:32
2907
原创 Apache Arrow简介
Apache Arrow是一个开源的跨平台数据层开发框架,主要提供高效的、硬件加速的、内存中数据计算的能力。Apache Arrow的设计初衷是作为“新一代大数据系统的共享基础”,可以作为不同系统之间进行高效数据交换的媒介,同时提供快速、低延迟的数据访问接口。Apache Arrow的主要目标是通过提供一个开放的标准,解决大数据领域常见的问题:大量的数据复制和序列化/反序列化操作所带来的性能问题,以及跨平台和跨语言环境下的数据兼容性问题。
2024-09-02 16:20:57
1278
原创 DORIS - DORIS简介
Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。
2024-08-31 18:23:44
1329
1
原创 大数据查询优化之分区裁剪 ?
分区裁剪是一种优化大数据查询性能的技术,它主要通过限制查询处理的数据范围来提高查询效率。分区裁剪主要涉及到对HiveSQL语句的优化,包括列裁剪和分区裁剪两个方面。
2024-08-31 09:02:19
256
原创 大数据查询优化之谓词下推 ?
谓词,可以理解为条件表达式,在SQL中,谓词就是返回Boolean值,即True或False的函数,或是隐式转换为Boolean的函数。SQL中的谓词主要有 LKIE、BETWEEN、IS NULL、IS NOT NULL、IN、EXISTS其结果为布尔值,即True或False。在SELECT语句的WHERE子句或HAVING子句中,确定哪些行与特定查询相关的条件或者函数。
2024-08-31 09:01:21
501
原创 一文认识大数据的CAP原则和BASE原则
CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错(Partition-tolerance),在一个分布式系统中三个要素不可同时具有,只能选择其中两个,不可能三者兼顾。不可以同时满足的主要原因是当出现通信失败时(即出现分区容错),此时集群的一致性C和可用性A不可以同时满足。
2024-08-30 09:29:39
549
原创 一文认识数据库事务(ACID)
数据库事务(Database Transaction)是数据库管理系统执行过程中的一个逻辑单位,由一系列对数据的操作组成。事务是数据库维护数据的原子性、一致性和完整性的重要机制。
2024-08-30 09:28:16
547
原创 一文读懂数据库、数据仓库、数据平台、数据中台、数据湖、湖仓一体的使用场景和区别
一文读懂数据库、数据仓库、数据平台、数据中台、数据湖、湖仓一体的使用场景和区别
2024-08-29 16:56:46
1621
原创 DORIS - 执行 git submodule update --init --recursive 的目的是什么?
DORIS - 执行 git submodule update --init --recursive 的目的是什么?
2024-08-27 17:33:13
582
原创 DORIS - 克隆代码异常(Clone succeeded, but checkout failed)
由于文件名太长,git clone 执行成功,git checkout 失败。
2024-08-27 17:08:05
398
原创 JAVA基础 - HTTRACK安装使用教程
工作中经常需要查看在线文档,在没有网络的情况下如何查看在线文档呢?计划使用HTTRACK将文档克隆到本地,然后离线查看。
2024-04-29 09:23:02
825
原创 NLP - 如何解决ModuleNotFoundError: No module named ‘jieba‘的问题
ModuleNotFoundError: No module named 'jieba'
2023-08-22 16:01:08
3459
原创 SpringBoot - 在IDEA中经常发现:Could not autowire. No beans of ‘xxx‘ type found的错误
在IDEA中经常发现:Could not autowire. No beans of 'xxx' type found的错误。
2023-06-29 09:18:08
3462
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人