自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 OLAP引擎 :CH Doris impala+kudu优缺点分析

Clickhouse / Doris /impala 对比

2022-08-31 09:41:24 1759

原创 OLAP与OLTP 区别

顾名思义,固化查询是固定下里的定期需要的查询需求,这种就是我们的做出来的表,即席查询相对于固化查询,他是偶发性的需求,业务方今天说想看xxx的数,那就直接给他取数,这种就是即席查询。是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,典型的是银行 ATM 存取款,金融证券方面的实时更新等,这些操作都比较简单,主要是对数据库中的数据进行 DML 操作,操作主体一般是产品的用户,并且 OLTP 事务性非常高,一般都是高可用的在线系统,如上述的银行金融方面。按照多维进行的切片成为切块。

2022-08-22 14:23:37 345

原创 大数据平台以及一些核心组件介绍

核心做三件事1 数据采集:把业务数据转移到hadoop2 数据计算、存储 :3 数据应用:把hadoop上数据转移到业务系统。

2022-08-20 13:39:24 1492

原创 Spark 学习

一般来说,Spark每支持一种新的应用开发,都会引入一个新的Context及相应的RDD,对于SQL这一特性来说,引入的就是SQLContext和SchemaRDD。是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目,可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择,从而进一步提高Hive和Spark的普及率。...

2022-08-15 11:24:23 379

原创 hive 时间函数转换

from_unixtime(bigint,'yyyy-MM-dd')from_unixtime(unix_timestamp(str,'yyyyMMdd'),'yyyy-MM-dd')

2022-07-18 22:47:07 375

原创 任务调度:常见类型和工具

自动化完成任务的定时执行。解决任务单元间的依赖关系。

2022-07-16 20:28:11 914

原创 数仓 -OLAP OLTP 建模方法

OLAP OLTP对定义 以及常见的模型

2022-07-16 20:02:24 443

原创 数仓基本架构--分层 各层功能

数据仓库架构图在分层和命名大同小异。

2022-07-16 19:31:17 3789

原创 JDBC 和 ODBC 的区别

ODBC简介开放数据库连接(OpenDatabaseConnectivity,ODBC)是为解决异构数据库间的数据共享而产生的,现已成为WOSA(TheWindowsOpenSystemArchitecture(Windows开放系统体系结构))的主要部分和基于Windows环境的一种数据库访问接口标准。odbc可以将其用于任何语言,如C,C++等本地语言开发的ODBC驱动程序,仅可以选择在Windows平台上使用。1.jdbc因为是java用来连接数据库的,所以是面向对象的。...

2022-07-16 15:30:37 696

原创 数据仓库产品

1Oracle节点之间共享磁盘资源优点很常见,学习资料广泛,运维方便。缺点单个集群支持100左右节点,适合数据量小的场景2DB2集群版本DPF-IBM商业数据库,与IBM硬件兼容好,一般伴随商业选增中被企业使用;一体机形式销售自带数据引擎和查询工具,性能优秀,稳定易用,是大型企业商业数仓选型开源产品,性价比高。.........

2022-07-15 00:07:48 2479

原创 数仓技术实现

由单机数据库发展而来的,由关系型数据库组成MPP(大规模并行处理) 集群将一张大表拆分到各个节点进行存储,分库分表存储(哈希)在数据量较小时,具备优越的性能、数据量一旦达到一定量级后,就有局限性了。缺点: 1)扩展性有限 ,2) 热点问题(数据倾斜)--可以通过数据加盐的方式解决依托大数据技术,利用大数据天然的扩展性,完成海量数据的存放。将SQL转换为大数据计算引擎任务,完成数据分析 。 并发计算 优点 : 可拓展,分布式文件系统拆分存储 ,计算时还原文件为原始表结构 ;安全性 : 更安全缺点: 1 SQL

2022-07-04 00:16:12 550

原创 数仓基本概述

数据仓库(data warehouse ,DW)数仓是面向主题的集成的非易失的且随时间变化的数据集合。主要用于组织积累的历史数据,并使用分析方法(OLAP,数据分析) 进行分析整理,进而辅助决策,为管理者,企业提供数据支持,构建商业智能。1 面向主题: 根据主题将原始数据集合在一起。2 集成 原始数据源不用,需要经过ETL转化(清洗, 统一标准 )3 非易失 : 不允许被修改,只允许查询、分析 4 时变性:数仓会定期接受。集成新的数据, 从而反映数据的最新变化。数据库面向事物设计,属于OLTP系统,主要操

2022-07-03 23:59:06 327

原创 数据湖定义

数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。数据湖是一个存储库,它允许存储大量的原始数据,也就是说,没有按照特定的模式进行准备、处理或操作的数据。 数据湖的一个关键特征是不会拒绝任何数据,这意味着结构化格式和非结构化数据格式都可以存储。由于数据

2022-07-01 15:33:55 786

原创 SQL处理数据 同期群分析

SQL进行数据处理 ,同期群分析

2022-06-19 20:01:23 260

原创 【python】将输入的数字变成list

s=input('enter your numbers')A=[]for i in range(len(s)): a=int(s[i]) A.append(a)print(A)

2021-12-16 00:05:12 5132 2

原创 找一个数介于两个斐波那契数列之间

def fib_interval(x): """ returns the largest fibonacci number smaller than x and the lowest fibonacci number higher than x""" old, new = 0, 1 while True: if new < x: old, new = new, old+new else: ...

2021-11-01 23:10:40 138

原创 计算前五个数阶乘之和

from functools import reducel1= lambda x,y:x*yl2= lambda n:reduce(l1 ,range(1,n+1))l3= lambda x,y :x+yprint(reduce(l1 ,range(1,6)))print(list(map(l2 , range(1,6))))print(reduce(l3,list(map(l2 , range(1,6)))))

2021-11-01 21:58:05 493

原创 列表元素相加

可以用 map 实现先定义lambda1=lambda a,b :a+beg:a=[1,2,3]b=[4,5,6]print(list(map(lambda1, a,b)))

2021-11-01 21:55:27 520

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除