- 博客(53)
- 资源 (25)
- 收藏
- 关注
原创 Greenplum 存储及使用场景
Greenplum支持行存和列存,对应的是堆表和AO表行存和列存的原理1、行存,以行为形式组织存储,查询的时候需要全表扫描要扫描更多的数据块;压缩比较低;读取任意列的成本不一样,越靠后的列,成本越高。2、列存,以列为形式组织存储,每列对应一个或一批文件。读取任一列的成本是一样的,但是如果要读取多列,需要访问多个文件,访问的列越多,开销越大压缩比高;读取任意列的成本是一样的;非常...
2020-01-13 10:53:12
3157
原创 第二篇: 模式分类
主要有:维度建模、范式建模、Data Vault模型、Anchor模型维度模型 企业中最流行也是最经典的数仓建模经典。按数据组织类型划分可分为星型模型、雪花模型、星座模型。范式模型 即实体关系(ER)模型,数据仓库之父Immon提出的,从全企业的高度设计一个3NF模型,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF。此建模方法,对建模人员的能力要求非常高。Da...
2019-12-19 13:57:56
468
原创 第一篇:数据仓库分层概念
一 为什么要对数据仓库分层?(1)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;(2)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大;(3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的...
2019-12-17 17:06:03
1607
原创 Greenplum 权限基本命令
创建权限问题:1.1)创建role CREATE ROLE "yfkj" CREATEDB;1.2) 创建SchemaCREATE SCHEMA IF NOT EXISTS fiproduct_v_${tenant};1.3) 给 schema 赋权GRANT USAGE ON SCHEMA uorders_v_${tenant} TO yfkj WITH GRANT ...
2019-11-28 17:13:46
4748
转载 Greenplum常用的gp_toolkit & pg_catalog监控语句
原文链接:https://mp.youkuaiyun.com/postedit目录gp_toolkit 说明1、表膨胀相关查询2、表倾斜的相关信息3、锁查询相关的信息4、日志查询相关的信息5、资源队列相关查询信息6、查看磁盘上(database,schema,table,indexs,view)等的占用大小的相关信息7、用户使用的工作空间大小信息8、查看用户创建的...
2019-11-26 21:07:15
1395
1
原创 hbase 基本命令
1) 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。ApacheHBase从0.98.0,0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权2)HBase系统默认定义了两个缺省的namespace hbase:系统内建...
2019-11-05 21:01:41
249
原创 Apache Atlas2.0 第七节 搜索功能
项目中使用到的东西,其他的基本没有啥研究1) 全局搜索:excludeDeletedEntities 这个属性一定加上,不然会把你删除的数据也给查询熟练,http://ip:port/api/atlas/v2/search/fulltext?query=test_atlas&excludeDeletedEntities=true2)唯一搜索:这个功能会有意想不到的收获。一般情况...
2019-10-17 16:54:43
1503
1
原创 Apache Atlas2.0 第六节 血源关系
1 )首先看一个效果图2 )由于使用hdp 进行Atlas集成,所以下面使用的是0.7版本的,亲自验证过的流程,先上一段json, 每两个Table (entity)之间需要一个Process 进行连接,形成一条血缘关系图。首末两端使用 inputs ,outputs进行entity 关联{ "entity":{ "typeName":"Process",...
2019-10-17 16:26:24
6843
5
原创 Apache Atlas2.0 第五节 集成RDBMS
查找了许多资料,发现对RDBMS支持很少,貌似需要写Rdbms的bridge,这里只介绍通过API方式,将mysql 导入到Atlas,血缘关系,继续改进请求方式:Post请求路径:http://localhost:21000/api/atlas/v2/entity请求验证方式:BaseAuth admin/admin建立数据库实例://3cd3adc7-67cf-4563...
2019-07-18 17:35:43
5073
6
原创 Apache Atlas2.0 第四节 执行流程
首先从官网查了一下支持的数据源:Hive sqoop Falcon Storm普及一下Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理安装之前需要手动配置 atlas-application.pr...
2019-07-11 12:08:08
2117
5
原创 Apache Atlas2.0 第二节 架构理解
Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统,整个结构 图如下所示:核心组件CoreType System: Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 "类型" 的定义组成。"类型" 的 实例被称为 "实体" ...
2019-07-11 12:06:17
11579
2
原创 Apache Atlas2.0 第一节 构建与安装
1 准备工作: 本文档以最新版本为例(2.0) 下载安装:jdk-8u211-linux-x64.tar.gz 地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html(千万记住不要使用Linux 自带的jdk,安装过程中有大坑) ...
2019-04-25 17:54:48
7967
24
转载 机器学习中的一些距离公式及详细介绍
转载本文请加上:转载自过往记忆(https://www.iteblog.com/)本文链接: 【机器学习中常用的距离公式】(https://www.iteblog.com/archives/2317.html) ...
2019-01-08 19:39:53
300
原创 分布式系统唯一ID生成方案总结
系统的唯一主键是需要系统面临的问题,生成ID的方法有很多,适应不同的场景、需求以及性能要求。下面几种是常见的一些技术方案,包括一些优缺点总结:(参考:https://www.cnblogs.com/haoxinyue/p/5208136.html)1 数据库级别:常见的方法是利用数据库字段的唯一性优点:1)简单,代码方便,性能可以接受。2)数字ID天然排序,对分页或...
2018-12-21 14:04:12
751
原创 观察者模式
观察者模式的定义: 在对象之间定义了一对多的依赖,这样一来,当一个对象改变状态,依赖它的对象会收到通知并自动更新。大白话: 其实就是发布订阅模式,发布者发布信息,订阅者获取信息,订阅了就能收到信息,没订阅就收不到信息。观察者模式所涉及的角色有: ● 抽象主题(Subject)角色:抽象主题角色把所有对观察者对象的引用保存在一个聚集(比如ArrayList对象)里,每个主题...
2018-11-15 10:06:37
129
原创 Linux 时间问题
一、查看和修改Linux的时区1. 查看当前时区命令 : "date -R"2. 修改设置Linux服务器时区方法 A命令 : "tzselect"方法 B 仅限于RedHat Linux 和 CentOS命令 : "timeconfig"方法 C 适用于Debian命令 : "dpkg-reconfigure tzdata"3. 复制相应的时区文件,替换系统时区文件...
2018-11-15 09:37:21
645
原创 一个作业多个任务调度例子
/** * * @ClassName: MetaStreamSetTask* @Description: TODO(这里用一句话描述这个类的作用)* @author caozq* @date 2018年10月24日 */public class MetaStreamSetTask extends SingleTaskJob { private static final ...
2018-11-07 11:31:36
552
原创 Linux 中定时执行MapReduce任务
1)安装Hadoop环境2)写MapReduce任务,将项目打包 OperateAyx-1.3.1.jar 入口如下:HBaseMR mian() 方法的编写3)进入 cd /var/spool/cron 路径,用hdfs用户上传到服务器 chown hdfs:hdfs OperateAyx-1.3.1.jar4)启用 Linux 定时任务 crontab -e 0...
2018-09-18 15:23:03
1336
原创 Jdk8 lambda 表达式例子
public static void test(){ List<DwMmDefVO> vos = new ArrayList<DwMmDefVO>(); DwMmDefVO temp = new DwMmDefVO(); temp.setDsName("name1"); temp.setDefType("Type1"); temp.setPk("PK1"); ...
2018-09-18 14:35:51
1051
转载 基于区块链的智能合约安全
智能合约定义和实际应用举例最近,区块链技术已经成为很多行业游戏规则的变革者,在比特币中涌现的分布式分类技术在数字货币之外也有了非常广阔的应用前景。区块链技术最有前途的一个应用就是开发智能合约。智能合约是自我执行合约,在智能合约中,合约条款由代码规定。基本上,这意味着可以用计算机程序编写具有法律效力的合约,而且这个合约可以自动执行。至少在1996年Nick Szabo 就提出了这一概...
2018-09-12 10:14:34
5541
原创 区块链目前的几大共识算法
共识机制:区块链事务达成分布式共识的算法。区块链是一种去中心化的分布式账本系统,它可以用于登记和发行数字化资产、产权凭证、积分等,并以点对点的方式进行转账、支付和交易。区块链系统与传统的中心化账本系统相比,具有完全公开、不可篡改、防止多重支付等优点,并且不依赖于任何的可信第三方。由于点对点网络下存在较高的网络延迟,各个节点所观察到的事务先后顺序不可能完全一致。因此区块链系统需要设计一种机制...
2018-09-12 10:13:11
21214
原创 Hash签名算法入门
在这篇文章中主要讲述了签名算法的发展历程,分析了基于哈希函数的签名算法的原理及优缺点。在过去的几年间,我有幸观察到两种矛盾又有吸引力的趋势。第一种是我们终于开始使用研究员花40年设计的密码学。从加密信息到手机安全再到数字加密货币,我们每天都可以从例子中看到这一点。第二种趋势是密码学正在为所有美好时光的结束做准备。在我完成这些之前,我要强调的是,这不是一篇关于量子计算灾难的文章,也不是一...
2018-09-12 10:11:28
8549
1
原创 业务树结构的构造
1 构造一个树结构@Entity@Table(name = "DW_META_MMDIR")public class DwMmDirVO { private static final long serialVersionUID = 1L; @Id @Column(name = "PK_DIR", length = 36, nullable = false, ...
2018-09-12 10:05:36
996
原创 java 注解定义及数据库封装
1.1) 定义注解 Column@Retention(RetentionPolicy.RUNTIME) @Target(ElementType.FIELD)public @interface Column { /** * 字段名称 */ String value(); /** * 字段的类型 ...
2018-08-17 13:22:00
899
原创 spark sql自己定义规则
1) github 下载spark 源码(下面的代码都是需要添加的,找到对应的文件进行添加即可)2)找到 SqlBase.g4 文件,以 offset 为例进行说明,下面的 2.1)找到下面的内容queryOrganization : (ORDER BY order+=sortItem (',' order+=sortItem)*)? (CLUSTER BY ...
2018-08-17 11:58:16
1801
原创 CentOS7 防火墙问题
1 查看版本情况:1)cat /etc/redhat-release,这种方法只适合Redhat系的Linux2)cat /proc/version3)uname -a2 查看服务器应用的端口情况ss -l -t -n3 firewalld的基本使用启动: systemctl start firewalld关闭: systemctl stop firewalld...
2018-08-17 11:50:15
272
原创 tomcat 集成 jdk 工具包的修改
1) 下载免安装 jdk 和tomcat2) 将jdk 放到 tomcat 里面,如图所示,最后的结构是这样子的。3) 配置jdk 运行环境3.1)win 环境下,修改setclasspath.bat ,在文件头部,加入如下配置rem ------------------------------------------------------------------...
2018-07-23 16:36:14
430
原创 Calcite 使用原生的RDD 处理Spark
1 通过配置 : properties.setProperty("spark", "true"); //可以执行调用内部的函数2 需要修改 Calcite-spark 中相关的文件/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreem...
2018-06-28 16:13:40
2727
1
原创 基于Java的SQL解析工具的比较与学习
1、JSqlParsergtihub 地址: https://github.com/JSQLParser/JSqlParser.git使用方法:/** * * @Package: com.yonyou.splice * @author: caozq * @date: 2018年6月26日 下午12:03:52 */package com.yonyou.splice;...
2018-06-28 16:08:06
12674
原创 Maven 用到的技巧
1 依赖本地Jar 最好放到目录lib 下面<dependency> <groupId>com.yonyou.dataworks</groupId> <artifactId>connection</artifactId> <scope>system</scope> <ver
2018-06-28 15:43:30
256
原创 Calcite 将 json 转化为 ResultSet
开始测试:import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import org.apache.calcite.jdbc.CalciteConnection;i...
2018-06-28 15:38:18
1782
转载 spark 学习资料
以下为该系列文章列表:1.Spark及其生态圈简介 下载2.Spark编译与部署(上)--基础环境搭建 下载2.Spark编译与部署(中)--Hadoop编译安装 下载2.Spark编译与部署(下)--Spark编译安装 下载3.Spark编程模型(上)--编程模型及SparkShell实战 下载3.Spark编程模型(下)--IDEA搭建及实战 下载4.Spark运行架构 下载5....
2018-06-14 19:43:50
571
原创 calcite 连接Mysql 数据库 demo
Calcite是一种动态数据管理系统,它具有标准SQL、连接不同前端和后端、可定制的逻辑规划器、物化视图、多维数据分析和流查询等诸多能力,使其成为大数据领域中非常有吸引力的查询引擎.看了好多Github 都没有一些合适的例子,自己花了一段时间整理的,希望以后会用到,代码中有很多不足的地方,就不多说,直接在本地做了一个DEMOBaseConnection: 定义接口,所有jdbc 都需要实现这个方法...
2018-06-14 19:43:01
3913
4
原创 spark 连接Mysql 的例子
直接上代码:object JdbcOperation { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test").setMaster("local") val sc = new SparkContext(conf) sc.setLogLevel("WAR...
2018-06-14 19:23:30
1134
原创 Spark demo java
public class SparkJava { public static class Person implements Serializable { private static final long serialVersionUID = -6259413972682177507L; private String name; private int age; public Perso...
2018-06-14 19:18:03
3965
原创 spark 三种创建 数据集的方法,及测试(Scala代码)
1 通过创建RDD执行查询/** * * 优点: * * 编译时类型安全 * 编译时就能检查出类型错误 * 面向对象的编程风格 * 直接通过类名点的方式来操作数据 * 缺点: * * 序列化和反序列化的性能开销 * 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. * GC的性能开销 * 频繁的创建和销毁对象, 势...
2018-06-14 19:16:52
3901
转载 SparkSQL
支持原创,这是最近看的比较好的文章:https://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上...
2018-05-11 00:35:05
1274
Atlas集成.docx
2019-07-11
边缘检测英语资料,毕业设计有用的
2011-05-27
基于jsp的网上购物系统
2011-05-23
全面讲述了应用MFC进行Visual C++编程
2011-05-22
VC++6.0的实时曲线图表程序
2011-05-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人