艾斯xi-优快云博客

原创 OLAP引擎：CH Doris impala+kudu优缺点分析

Clickhouse / Doris /impala 对比

2022-08-31 09:41:24 1910

原创 OLAP与OLTP 区别

顾名思义，固化查询是固定下里的定期需要的查询需求，这种就是我们的做出来的表，即席查询相对于固化查询，他是偶发性的需求，业务方今天说想看xxx的数，那就直接给他取数，这种就是即席查询。是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，典型的是银行 ATM 存取款,金融证券方面的实时更新等，这些操作都比较简单，主要是对数据库中的数据进行 DML 操作，操作主体一般是产品的用户，并且 OLTP 事务性非常高，一般都是高可用的在线系统，如上述的银行金融方面。按照多维进行的切片成为切块。

2022-08-22 14:23:37 395

原创大数据平台以及一些核心组件介绍

核心做三件事1 数据采集：把业务数据转移到hadoop2 数据计算、存储：3 数据应用：把hadoop上数据转移到业务系统。

2022-08-20 13:39:24 1697

原创 Spark 学习

一般来说，Spark每支持一种新的应用开发，都会引入一个新的Context及相应的RDD，对于SQL这一特性来说，引入的就是SQLContext和SchemaRDD。是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。...

2022-08-15 11:24:23 413

原创 hive 时间函数转换

from_unixtime(bigint,'yyyy-MM-dd')from_unixtime(unix_timestamp(str,'yyyyMMdd'),'yyyy-MM-dd')

2022-07-18 22:47:07 404

原创任务调度：常见类型和工具

自动化完成任务的定时执行。解决任务单元间的依赖关系。

2022-07-16 20:28:11 967

原创数仓 -OLAP OLTP 建模方法

OLAP OLTP对定义以及常见的模型

2022-07-16 20:02:24 497

原创数仓基本架构--分层各层功能

数据仓库架构图在分层和命名大同小异。

2022-07-16 19:31:17 4186

原创 JDBC 和 ODBC 的区别

ODBC简介开放数据库连接（OpenDatabaseConnectivity，ODBC）是为解决异构数据库间的数据共享而产生的，现已成为WOSA(TheWindowsOpenSystemArchitecture(Windows开放系统体系结构))的主要部分和基于Windows环境的一种数据库访问接口标准。odbc可以将其用于任何语言，如C，C++等本地语言开发的ODBC驱动程序，仅可以选择在Windows平台上使用。1.jdbc因为是java用来连接数据库的，所以是面向对象的。...

2022-07-16 15:30:37 780

原创数据仓库产品

1Oracle节点之间共享磁盘资源优点很常见，学习资料广泛，运维方便。缺点单个集群支持100左右节点，适合数据量小的场景2DB2集群版本DPF-IBM商业数据库，与IBM硬件兼容好，一般伴随商业选增中被企业使用；一体机形式销售自带数据引擎和查询工具，性能优秀，稳定易用，是大型企业商业数仓选型开源产品，性价比高。.........

2022-07-15 00:07:48 2583

原创数仓技术实现

由单机数据库发展而来的，由关系型数据库组成MPP（大规模并行处理）集群将一张大表拆分到各个节点进行存储，分库分表存储（哈希）在数据量较小时，具备优越的性能、数据量一旦达到一定量级后，就有局限性了。缺点： 1）扩展性有限，2）热点问题（数据倾斜）--可以通过数据加盐的方式解决依托大数据技术，利用大数据天然的扩展性，完成海量数据的存放。将SQL转换为大数据计算引擎任务，完成数据分析。并发计算优点：可拓展，分布式文件系统拆分存储，计算时还原文件为原始表结构；安全性：更安全缺点： 1 SQL

2022-07-04 00:16:12 588

原创数仓基本概述

数据仓库（data warehouse ，DW）数仓是面向主题的集成的非易失的且随时间变化的数据集合。主要用于组织积累的历史数据，并使用分析方法（OLAP，数据分析）进行分析整理，进而辅助决策，为管理者，企业提供数据支持，构建商业智能。1 面向主题：根据主题将原始数据集合在一起。2 集成原始数据源不用，需要经过ETL转化（清洗，统一标准）3 非易失：不允许被修改，只允许查询、分析 4 时变性：数仓会定期接受。集成新的数据，从而反映数据的最新变化。数据库面向事物设计，属于OLTP系统，主要操

2022-07-03 23:59:06 371

原创数据湖定义

数据湖（Data Lake）是一个以原始格式存储数据的存储库或系统，它按原样存储数据，而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、日志、XML、JSON），非结构化数据（如电子邮件、文档、PDF）和二进制数据（如图形、音频、视频）。数据湖是一个存储库，它允许存储大量的原始数据，也就是说，没有按照特定的模式进行准备、处理或操作的数据。数据湖的一个关键特征是不会拒绝任何数据，这意味着结构化格式和非结构化数据格式都可以存储。由于数据

2022-07-01 15:33:55 892

原创 SQL处理数据同期群分析

SQL进行数据处理，同期群分析

2022-06-19 20:01:23 301

原创【python】将输入的数字变成list

s=input('enter your numbers')A=[]for i in range(len(s)): a=int(s[i]) A.append(a)print(A)

2021-12-16 00:05:12 5197 2

原创找一个数介于两个斐波那契数列之间

def fib_interval(x): """ returns the largest fibonacci number smaller than x and the lowest fibonacci number higher than x""" old, new = 0, 1 while True: if new < x: old, new = new, old+new else: ...

2021-11-01 23:10:40 157

原创计算前五个数阶乘之和

from functools import reducel1= lambda x,y:x*yl2= lambda n:reduce(l1 ,range(1,n+1))l3= lambda x,y :x+yprint(reduce(l1 ,range(1,6)))print(list(map(l2 , range(1,6))))print(reduce(l3,list(map(l2 , range(1,6)))))

2021-11-01 21:58:05 520

原创列表元素相加

可以用 map 实现先定义lambda1=lambda a,b :a+beg：a=[1,2,3]b=[4,5,6]print(list(map(lambda1, a,b)))

2021-11-01 21:55:27 554

m0_61059815的博客