- 博客(50)
- 收藏
- 关注
原创 拉链表实现
1 背景< 本文前面的内容时参考了'lxw的大数据田地',具体可查看最后的'参考文章',个人加入了'拉链表的回滚'部分的内容sql,如果有实践的,可以互相交流学习,谢谢 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 1.1 数据量比较大; 1.2 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 1.3 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过.
2021-12-02 14:48:56
638
原创 Datax中txtfilereader插件使用
Datax的txtfilereader插件实践 一、介绍TxtFileReader提供了读取本地文件系统数据存储的能力。在底层实现上,TxtFileReader获取本地文件数据,并转换为DataX传输协议传递给Writer。二、配置模版?12345678910111213141516171819202122232425262728293031323334353637383940414243...
2021-11-05 09:34:07
2367
原创 oracle查询表信息(索引,外键,列等)
oracle查询表信息(索引,外键,列等)oracle中查询表的信息,包括表名,字段名,字段类型,主键,外键唯一性约束信息,索引信息查询SQL如下,希望对大家有所帮助:1、查询出所有的用户表select * from user_tables 可以查询出所有的用户表select owner,table_name from all_tables; 查询所有表,包括其他用户表通过表名过滤需要将字母作如下处理select * from user_tables where table_name = upp
2021-02-23 09:31:52
817
原创 占位符对时间的掌控
selectCOMPNO,COMPNM,ORG3NO,ORG3NM,accountname,if(accmm=replace(’selectdate.get(0)′,′−′,′′),currentamount,0)ascurrentamount,if(accmm>if(substr(replace(′{select_date.get(0)}','-',''),current_amount,0) as current_amount, if(accmm>if(substr(rep
2020-12-03 09:11:18
253
原创 数据中台之窗口函数应用案例
标题 窗口函数的应用案例insert overwrite ads_self_special_sale_detailselect a2.fourth_daim as COMPNO, a2.fourth_name as COMPNM, a2.third_daim as ORG3NO, a2.third_name as ORG3NM, a2.second_daim as ORG2NO, a2.second_name as ORG2NM, '0' as
2020-11-17 10:48:36
268
转载 pyecharts数据可视化
Python3:pyecharts数据可视化插件一、简介pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。二、安装pip install pyecharts在线安装不成功,采用离线插件whl安装:(1)下载:pyecharts-0.1.9.4-py2.py3-none-any.whl(2)然后进入到所咋的文件夹,执行安装命令:D:\whl>pip install pyecharts...
2020-05-25 16:54:08
1645
原创 Kmeans算法思想
一、聚类思想 所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,如下图所示: 根据样本之间的距离或者说是相似性(亲疏性),把越相似、...
2020-04-28 14:51:06
3284
原创 Mysql8安装教程
mysql-8.0 安装教程(自定义配置文件,密码方式已修改) </h1> <div class="clear"></div> <div class="postBody"> 下载zip安装包: MySQL8.0 For Windows zip...
2020-04-21 10:46:58
243
原创 图表配色方案
好看的图表离不开配色,好看的PPT离不开配色,好看的大屏可视化分析更离不开配色。博主平时也要做一些数据可视化分析的大屏,一般都需要对背景、图表、数据列表等区域进行配色,根据美工那边的配色推荐,博主整理了一下平时做图表、数据可视化分析大屏时会用到的配色方案,希望对他们平时做大屏展示或者做PPT时有帮助,方便大...
2020-03-05 14:40:02
1316
原创 数据仓库维度建模
概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。因此,下面的将详细地阐述数据建模中的典...
2020-01-01 16:32:24
286
原创 列表,元组,字典的差异性
一.列表(list)具有以下特点: 1.可以用list()函数或者方括号[]创建,元素之间用逗号’,‘’分隔。 2.列表的元素不需要具有相同的类型 3.使用索引来访问元素 4.可切片# 可用list()函数建立list1 = list((1, 2))# 用[]建立,可包含不同数据类型list2 = [1, 3, 'hello', 3.5]# 可用下标访...
2019-12-25 08:20:39
362
原创 python实用代码
检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了 set() 属性,该属性将会从列表中删除重复的元素。def all_unique(lst):return len(lst) == len(set(lst))x = [1,1,2,2,3,2,3,4,5,6]y = [1,2,3,4,5]all_unique(x) # Falseall_unique(y) # T...
2019-12-11 15:48:35
2632
原创 Mysql 行转列and列转行
一、行转列即将原本同一列下多行的不同内容作为多个字段,输出对应内容。建表语句DROP TABLE IF EXISTS tb_score;CREATE TABLE tb_score(id INT(11) NOT NULL auto_increment,userid VARCHAR(20) NOT NULL COMMENT ‘用户id’,subject VARCHAR(20)...
2019-11-28 15:59:15
137
转载 一个小时学会MySQL数据库
一个小时学会MySQL数据库 </h1> <div class="clear"></div> <div class="postBody">目录一、数据库概要1.1、发展历史1.1.1、人工处理阶段1.1.2、文件系统1.1....
2019-11-20 13:14:06
2447
原创 NGINX
Nginx 同 Apache 一样都是一种 Web 服务器。基于 REST 架构风格,以统一资源描述符(Uniform Resources Identifier)URI 或者统一资源定位符(Uniform Resources Locator)URL 作为沟通依据,通过 HTTP 协议提供各种网络服务。然而,这些服务器在设计之初受到当时环境的局限,例如当时的用户规模,网络带宽,产品特点等局限并且各...
2019-11-05 19:29:26
236
转载 SQL执行顺序
很多 SQL 查询都是以 SELECT 开始的。不过,最近我跟别人解释什么是窗口函数,我在网上搜索”是否可以对窗口函数返回的结果进行过滤“这个问题,得出的结论是”窗口函数必须在 WHERE 和 GROUP BY 之后,所以不能”。于是我又想到了另一个问题:SQL 查询的执行顺序是怎样的?好像这个问题应该很好回答,毕竟自己已经写了上万个 SQL 查询了,有一些还很复杂。但事实是,我仍然很难确切地...
2019-11-04 08:23:45
128
原创 ResourceManager介绍
一、概述本文将介绍ResourceManager在Yarn中的功能作用,从更细的粒度分析RM内部组成的各个组件功能和他们相互的交互方式。二、ResourceManager的交互协议与基本职能1、ResourceManager交互协议在整个Yarn框架中主要涉及到7个协议,分别是ApplicationClientProtocol、MRClientProtocol、ContainerMana...
2019-10-30 14:06:33
2783
原创 NodeManager介绍
一 概述 NodeManager是运行在单个节点上的代理,它管理Hadoop集群中单个计算节点,功能包括与ResourceManager保持通信,管理Container的生命周期、监控每个Container的资源使用(内存、CPU等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务等。 NodeManager是YARN中单个节点的代理,它需要与应用程序的Applica...
2019-10-30 14:03:50
4609
原创 SQL练习1
1 重复数据处理查找重复记录SELECT * FROM userWhere (nick_name,password) in(SELECT nick_name,passwordFROM usergroup by nick_name,passwordhaving count(nick_name)>1);查找去重记录查找id最大的记录SELECT * FROM user...
2019-10-30 08:21:32
180
原创 数据库写入时float自动变为整数了
问题描述今天用python插入数据到mysql时遇到个问题,明明数据库设置的字段数据类型是float,要存的数据也是float类型,但是存进去后就变成了整数了,比如0.98变成了1.发现实现因为我创建表的sql语句有问题,因为使用Navicat直接导出的sql语句表的sql语句如下CREATE TABLE traffic_and_weather (currentTime timestam...
2019-10-24 10:55:35
1543
原创 MySQL常用命令
一、登录mysql数据库1、连接本地mysql数据库,默认端口为3306#mysql –u root –p 123456 //-u:指定用户 -p:指定与用户对应的密码2、通过IP和端口连接远程mysql服务器#mysql –u root –p 123456 –h 192.168.100.1 –P 3306二、数据库操作语句1、显示所有数据库show databa...
2019-10-23 14:56:22
317
原创 MySQL常用语法1
DISTINCT用法#SELECT DISTINCT store_name FROM db.MY WHERE Sales>1000;2.AND OR 用法#SELECT store_name,Sales FROM db.MY WHERE Sales>1000 OR (Sales<500 AND Sales>275);3.IN用法#SELECT * FROM d...
2019-10-23 14:55:17
141
原创 索引
索引是什么?索引是帮助MySQL高效获取数据的数据结构。索引能干什么?提高数据查询的效率。索引:排好序的快速查找数据结构!索引会影响where后面的查找,和order by 后面的排序。一、索引的分类1️⃣从存储结构上来划分:BTree索引(B-Tree或B+Tree索引),Hash索引,full-index全文索引,R-Tree索引。2️⃣从应用层次来分:普通索引,唯一索引,复合索...
2019-08-28 09:54:46
126
原创 Hive小结
Hive小结 HIve总结:首先要学习Hive,第一步是了解Hive,Hive是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为mapreduce任务运行。相对于用java代码编写mapreduce来说,Hive的优势明显:快速开发,人员成本低,可扩展性(自由扩展集群规模),延展...
2019-05-21 19:16:47
240
转载 sql语句练习50题(Mysql版)
表名和字段–1.学生表Student(s_id,s_name,s_birth,s_sex) --学生编号,学生姓名, 出生年月,学生性别–2.课程表Course(c_id,c_name,t_id) – --课程编号, 课程名称, 教师编号–3.教师表Teacher(t_id,t_name) --教师编号,教师姓名–4.成绩表Score(s_id,c_id,s_score) --学生...
2019-05-20 11:07:34
164
转载 nc命令用法举例
什么是ncnc是netcat的简写,有着网络界的瑞士军刀美誉。因为它短小精悍、功能实用,被设计为一个简单、可靠的网络工具nc的作用(1)实现任意TCP/UDP端口的侦听,nc可以作为server以TCP或UDP方式侦听指定端口 (2)端口的扫描,nc可以作为client发起TCP或UDP连接(3)机器之间传输文件(4)机器之间网络测速 &...
2019-05-15 21:14:08
479
转载 Redis缓存穿透、缓存雪崩、redis并发问题分析
(一)缓存和数据库间数据一致性问题分布式环境下(单机就不用说了)非常容易出现缓存和数据库间的数据一致性问题,针对这一点的话,只能说,如果你的项目对缓存的要求是强一致性的,那么请不要使用缓存。我们只能采取合适的策略来降低缓存和数据库间数据不一致的概率,而无法保证两者间的强一致性。合适的策略包括 合适的缓存更新策略,更新数据库后要及时更新缓存、缓存失败时增加重试机制,例如MQ模式的消息队列。(二)...
2019-05-07 19:46:36
101
原创 项目中JAVA_OPTS配置各个参数含义
项目中tomcat设置java_opts:JAVA_OPTS="$JAVA_OPTS -server -Xmx512m -Xms512m -Xss256K -XX:NewRatio=2 -XX:SurvivorRatio=6 -XX:+DisableExplicitGC -...
2019-05-06 08:40:29
1158
原创 Spark Streaming中的函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func) map操作需要传入一个函数当做参数,具体调用形式为val ...
2019-04-25 19:19:33
212
转载 Spark 2.0系列之SparkSession详解
用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2 0中的功能和地位加以阐释。Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户...
2019-04-24 19:23:45
485
转载 Spark设计理念与基本架构
《深入理解Spark:核心思想与源码分析》(第2章) 《深入理解Spark:核心思想与源码分析》一书前言的内容请看链接《深入理解SPARK:核心思想与源码分析》一书正式出版上市《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章 环境准备》本文主要展示本书的第2章内容:Spark设计理念与基本架构“若夫乘天地之正,而御六气之辩...
2019-04-24 17:42:18
363
原创 Spark之shuffle机制及原理
一 概述Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个...
2019-04-23 19:59:50
259
原创 Spark源码分析
过程描述:1.通过Shell脚本启动Master,Master类继承Actor类,通过ActorySystem创建并启动。2.通过Shell脚本启动Worker,Worker类继承Actor类,通过ActorySystem创建并启动。3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等),以后就是定时汇报,保持心跳。4.Maste...
2019-04-22 20:38:07
190
转载 23种设计模式全解析
一、设计模式的分类总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两类:并...
2019-04-20 18:38:58
250
转载 大数据基础知识思维导图
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/u013816144/article/details/51511565 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/templat...
2019-04-19 07:39:02
9910
转载 Spark总结
RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被...
2019-04-18 20:15:37
140
原创 redis持久化
关于Redis说点什么,目前都是使用Redis作为数据缓存,缓存的目标主要是那些需要经常访问的数据,或计算复杂而耗时的数据。缓存的效果就是减少了数据库读的次数,减少了复杂数据的计算次数,从而提高了服务器的性能。一、redis持久化----两种方式1、redis提供了两种持久化的方式,分别是RDB(Redis DataBase)...
2019-04-18 07:15:40
111
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人