- 博客(96)
- 资源 (2)
- 收藏
- 关注
原创 数据仓库-日期维度表的设计与实现
本文基于python的chinese_calendar和pymysql库编写了一个生成日期维表(日期-工作日-节假日维度表),用于对业务主题表进行维度建模,实现方式简单,一键生成,数据可靠。
2023-05-14 14:56:35
3631
原创 MySQL中count(*),count(1),count(列名)的区别
对于MyISAM引擎:count(*),count(1),count(列名)是没有区别的,因为内部有专门的计数器维护着行数。对于InnoDB引擎:count(*),count(1)效果相同,引擎会读一遍数据,复杂度是O(n),可以统计列为null的行,但count(列名)的形式不会统计null的行。...
2022-01-14 20:53:24
494
原创 Android kotlin 自定义View 旋转、移动、放缩 ImageView
Android kotlin 自定义View,继承ImageView功能:放缩:三指操作旋转:两只操作移动:单指操作
2021-02-07 10:50:23
3371
4
原创 MySQL中 BIGINT UNSIGNED value is out of range
MYSQL中当两个字段相减时,如果其中一个或两个字段的类型的unsigned无签名类型,如果想减的值小于0则会报错(BIGINT UNSIGNED value is out of range)处理办法:例:select a - b from table解决方案:select if(a >= b, a - b, - (b - a)) from tbl...
2020-09-18 21:50:07
1986
原创 ClickHouse
1、概述ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。2、数据类型2.1 整型Int8 - [-128 : 127]Int16 - [-32768 : 32767]Int32 - [-2147483648 : 2147483647]Int64 - [-9223372036854775808 : 9223372036854775807]无符号整型范围(0~2
2020-07-18 12:07:10
246
原创 Kylin
1、概述Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。2、Kylin架构3、相关概念OLAP(online analytical processing)从各个方面观察信息,以达到深入理解数据的目的,也称多维分析OLAP类型OLAP Cube:MOLAP基于多维数据集,一个多维数据集称为一个OLAP Cube维度:分析数据的数据的角度度量
2020-07-15 22:02:12
387
原创 Sqoop
Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2020-07-11 21:58:04
836
原创 Rowkey设计三大原则
RowKey设计三大原则:唯一性原则(类似于关系型数据库的主键)长度原则(最大值64K,实际使用10-100byte)散列原则(使得rowkey没有规律,可以均匀分布)
2020-07-11 10:10:36
6895
原创 HBase预分区
1、概述每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。(默认一个分区,范围是(-∞,+∞))2、预分区操作2.1、手动指定(开发中不使用)//1、设置分区键//四个分区键create 'staff1','info','partition1',SPILTS => ['1000','2000','3000','4000']//16进制序列预分区create ‘staff2
2020-07-11 09:37:58
285
原创 Hive-Rank
1、函数说明RANK() 排序相同时会重复,总数不会变DENSE_RANK() 排序相同时会重复,总数会减少ROW_NUMBER() 会根据顺序计算2、案例实操计算每门学科成绩排名。创建表并导入数据create table score(name string,subject string, score int) row format delimited fields terminated by "\t";load data local inpath '/opt/m
2020-06-28 22:58:53
182
原创 Hive-桶排序
1、概念对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径;分桶针对的是数据文件。2、案例操作创建分桶表create table stu_buck(id int, name string)clustered by(id) into 4 bucketsrow format delimited fields terminated by '\t';...
2020-06-28 18:46:39
357
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人