- 博客(18)
- 收藏
- 关注
原创 OLAP与OLTP 区别
顾名思义,固化查询是固定下里的定期需要的查询需求,这种就是我们的做出来的表,即席查询相对于固化查询,他是偶发性的需求,业务方今天说想看xxx的数,那就直接给他取数,这种就是即席查询。是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,典型的是银行 ATM 存取款,金融证券方面的实时更新等,这些操作都比较简单,主要是对数据库中的数据进行 DML 操作,操作主体一般是产品的用户,并且 OLTP 事务性非常高,一般都是高可用的在线系统,如上述的银行金融方面。按照多维进行的切片成为切块。
2022-08-22 14:23:37
345
原创 大数据平台以及一些核心组件介绍
核心做三件事1 数据采集:把业务数据转移到hadoop2 数据计算、存储 :3 数据应用:把hadoop上数据转移到业务系统。
2022-08-20 13:39:24
1492
原创 Spark 学习
一般来说,Spark每支持一种新的应用开发,都会引入一个新的Context及相应的RDD,对于SQL这一特性来说,引入的就是SQLContext和SchemaRDD。是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目,可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择,从而进一步提高Hive和Spark的普及率。...
2022-08-15 11:24:23
379
原创 hive 时间函数转换
from_unixtime(bigint,'yyyy-MM-dd')from_unixtime(unix_timestamp(str,'yyyyMMdd'),'yyyy-MM-dd')
2022-07-18 22:47:07
375
原创 JDBC 和 ODBC 的区别
ODBC简介开放数据库连接(OpenDatabaseConnectivity,ODBC)是为解决异构数据库间的数据共享而产生的,现已成为WOSA(TheWindowsOpenSystemArchitecture(Windows开放系统体系结构))的主要部分和基于Windows环境的一种数据库访问接口标准。odbc可以将其用于任何语言,如C,C++等本地语言开发的ODBC驱动程序,仅可以选择在Windows平台上使用。1.jdbc因为是java用来连接数据库的,所以是面向对象的。...
2022-07-16 15:30:37
696
原创 数据仓库产品
1Oracle节点之间共享磁盘资源优点很常见,学习资料广泛,运维方便。缺点单个集群支持100左右节点,适合数据量小的场景2DB2集群版本DPF-IBM商业数据库,与IBM硬件兼容好,一般伴随商业选增中被企业使用;一体机形式销售自带数据引擎和查询工具,性能优秀,稳定易用,是大型企业商业数仓选型开源产品,性价比高。.........
2022-07-15 00:07:48
2479
原创 数仓技术实现
由单机数据库发展而来的,由关系型数据库组成MPP(大规模并行处理) 集群将一张大表拆分到各个节点进行存储,分库分表存储(哈希)在数据量较小时,具备优越的性能、数据量一旦达到一定量级后,就有局限性了。缺点: 1)扩展性有限 ,2) 热点问题(数据倾斜)--可以通过数据加盐的方式解决依托大数据技术,利用大数据天然的扩展性,完成海量数据的存放。将SQL转换为大数据计算引擎任务,完成数据分析 。 并发计算 优点 : 可拓展,分布式文件系统拆分存储 ,计算时还原文件为原始表结构 ;安全性 : 更安全缺点: 1 SQL
2022-07-04 00:16:12
550
原创 数仓基本概述
数据仓库(data warehouse ,DW)数仓是面向主题的集成的非易失的且随时间变化的数据集合。主要用于组织积累的历史数据,并使用分析方法(OLAP,数据分析) 进行分析整理,进而辅助决策,为管理者,企业提供数据支持,构建商业智能。1 面向主题: 根据主题将原始数据集合在一起。2 集成 原始数据源不用,需要经过ETL转化(清洗, 统一标准 )3 非易失 : 不允许被修改,只允许查询、分析 4 时变性:数仓会定期接受。集成新的数据, 从而反映数据的最新变化。数据库面向事物设计,属于OLTP系统,主要操
2022-07-03 23:59:06
327
原创 数据湖定义
数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。数据湖是一个存储库,它允许存储大量的原始数据,也就是说,没有按照特定的模式进行准备、处理或操作的数据。 数据湖的一个关键特征是不会拒绝任何数据,这意味着结构化格式和非结构化数据格式都可以存储。由于数据
2022-07-01 15:33:55
786
原创 【python】将输入的数字变成list
s=input('enter your numbers')A=[]for i in range(len(s)): a=int(s[i]) A.append(a)print(A)
2021-12-16 00:05:12
5132
2
原创 找一个数介于两个斐波那契数列之间
def fib_interval(x): """ returns the largest fibonacci number smaller than x and the lowest fibonacci number higher than x""" old, new = 0, 1 while True: if new < x: old, new = new, old+new else: ...
2021-11-01 23:10:40
138
原创 计算前五个数阶乘之和
from functools import reducel1= lambda x,y:x*yl2= lambda n:reduce(l1 ,range(1,n+1))l3= lambda x,y :x+yprint(reduce(l1 ,range(1,6)))print(list(map(l2 , range(1,6))))print(reduce(l3,list(map(l2 , range(1,6)))))
2021-11-01 21:58:05
493
原创 列表元素相加
可以用 map 实现先定义lambda1=lambda a,b :a+beg:a=[1,2,3]b=[4,5,6]print(list(map(lambda1, a,b)))
2021-11-01 21:55:27
520
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人