- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 数据仓库之整体介绍,相关概念
我相信,绝大多数人都听过数据仓库这个概念,也在用着数仓相关产品。本篇主要是整合数仓相关知识,结合自己的业务,对数仓做一个整体的介绍。本篇主要从数仓基本概念,数仓分层,数仓模型,数仓应用,数仓体系等方面来阐述。一、关于数仓1、数据仓库数据仓库(Data WareHouse),简称DW,是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合。2、为什么需要数仓?(1)数据体量越来越大(2)数据需要进行查询分析,业务数据库无法支撑高频、快速的查询需求(3)数据权限限制,数据存储在各个部门或者
2021-02-27 14:02:32
887
1
原创 关于tableau的详细级别计算
说明:下面用到的数据为虚造的,不具备任何业务意义一、介绍tableau详细级别计算主要有三种表达式:fixedincludeexclude这三种有所差别表达式主要格式:{FIXED [一级类目]: SUM([订单金额)}包含三大元素:维度,聚合,度量这个简单理解就是按照一级类目进行分组,对订单金额进行求和。三类表达式格式基本一致。下面我们来看下这三类表达式的作用一级区别二、FIXED我们先来看fixed按照表达式建一个度量:订单数量(统计){fixed[一级类目]:SUM([订
2020-12-10 20:48:32
1223
原创 tableau 有条件的设置文本颜色
tableau 有条件的设置文本颜色说明:数据是自己造的,主要用于软件操作,无实际意义主要有四种情况:1、根据阈值,在低于/高于阈值时为每个数字设置颜色这里是需要对总库存大于等于10000设置为蓝色,小于10000设置为黄色。具体操作如下动图所示:条件设置语句:总库存(阈值):if sum([总库存])>=10000 then '大于等于1万'else '小于1万'END这里只设置一个阈值,如果需要设置多个的话,可以用ELSEIF后面编辑颜色是可以进行更改颜色2、基于其他
2020-11-11 20:58:50
12288
原创 SQL计算月环比、月同比
在工作的过程中,经常会使用到环比、同比,那关于如何用SQL去写环比和同比呢?非常简单,用interval函数,轻松实现。interval 1 month,环比interval 1 year ,同比一、准备数据为了快速理解,我建了一个表,关于订单金额的(数据是随机数,非真实数据)数据格式如下:数据尽量极简,所以就只有日期和订单金额。(格式是之前一个面试官给我举的例子)二、计算1、月环比代码:##月环比select substr(a.d,1,7) as month ,a.d,a.ord
2020-08-17 17:51:37
14810
3
原创 A pom.xml file already exists in the destination folder.
在创建maven项目中出现了这个错误原因:之前创建过这个项目,在eclipse中删除了,但是在文件夹中并没有删除解决方案:找到这个文件的目录,然后将整个文件夹删了问题即可解决
2020-08-11 11:10:02
2035
原创 python数据分析实战(二)
python数据分析实战(二)这部分也是找的实战案例,我看了很多次python基础,也看了python数据分析这本书,但是没有真正敲代码的话还是感觉有点虚,最近在不断的找案例,不断的自己敲代码。案例链接:https://segmentfault.com/a/1190000015440560主要分为两个方面:一、数据初探,二、数据可视化一、数据初探1、导入数据包第一步,导入需要的包,numpy,pandas,matplotlib,sklearn,seaborn以及选择绘图的风格import p
2020-06-29 17:01:17
654
原创 seaborn如何调整子图间的间距
先来看图:如下图,标题和横轴名称出现了重叠,子图间的间距太小了。那要如何调整呢?subplots_adjust()函数可以解决,在源代码那加上:f.subplots_adjust(hspace=40)代码如下:f,[ax1,ax2,ax3]=plt.subplots(3,1,figsize=(20,15)) #3行1列,ax1,ax2,ax3表示子图,f代表图片,figsize图片显示的尺寸f.subplots_adjust(hspace=40)#直方图sns.barplot(x='Regi
2020-06-24 16:49:41
5675
原创 pandas数据分析实例(pandas、matplotlib)
本人喜欢数据分析,接触数据分析也接近两年的时间了,最近在学习pandas。学习最好的方法是使用它,所以,根据这个文章,做了一些练习,并记录下我练习的轨迹。文章链接:https://mp.weixin.qq.com/s/RcrQmqty1FHEDbQfxv2XTQ主要是四部分:数据读取,数据概述,数据清洗和整理,分析和可视化一、数据读取df = pd.read_csv(r'F:\python学习\DataAnalyst.csv',encoding='gb2312')print(df)结果如下:
2020-06-23 10:18:29
3209
1
原创 解决更新matplotlib中出现Could not install packages due to an EnvironmentError问题
将更新语句改为:pip install --user --upgrade matplotlib 即可查看matplotlib 版本:import matplotlibmatplotlib.version
2020-06-20 14:30:53
637
原创 pandas to_excel:写入数据,在同一个sheet中追加数据,写入到多个sheet里
pandas to_excel:写入数据,写入到多个sheet里,在同一个sheet中追加数据一、写入数据了解下to_excel 的其他参数,写入操作非常简单df.to_excel('aa.xlsx')二、写入到多个sheet中这个就和之前写过的“解决pandas中to_excel 数据覆盖sheet表问题”是差不多的,如果要实现同时写多个sheet的话,加一个循环或者判断就好。现在下面给“解决pandas中to_excel 数据覆盖sheet表问题”的代码。可以针对sheet_name做修改或
2020-06-15 17:36:36
43623
36
原创 通过pandas将数据存储进数据库+解决pymysql驱动问题
在python中通过pandas 将数据存进数据库(mysql)一、在navicat中建数据库和表1、建数据库右键-新建数据库2、建表右键-新建表二、连接数据库from impala.dbapi import connectimport pymysqlfrom sqlalchemy import create_engineimport pandas as pdresult2=[('a','2','ss'),('b','2','33'),('c','4','bbb')]df = pd.
2020-06-11 10:53:33
304
原创 解决pandas中to_excel 数据覆盖sheet表问题
pandas解决to_excel 数据覆盖sheet表问题pandas将数据导入到excel时,会将原来的数据进行覆盖,解决这个问题的代码如下:import pandas as pdfrom openpyxl import load_workbookresult2=[('a','2','ss'),('b','2','33'),('c','4','bbb')]#列表数据writer = pd.ExcelWriter('123.xlsx',engine='openpyxl')#可以向不同的sheet写
2020-06-10 14:39:45
7639
5
原创 tableau制作中国地图(全)
tableau制作中国地图(大陆、港澳台)https://www.yuque.com/docs/share/01985718-75db-4e8e-b279-7b41b9263344?#由于是gif,容量比较大,不能直接发出来,在这个链接里里面包含了全流程,如有不清晰的地方,欢迎留言...
2020-05-26 11:33:34
12682
3
原创 解决navicat 连接不上mysql的问题
解决navicat 连接不上mysql的问题出错:Client does not support authentication protocol requested by server在mysql 8.0 Command Line Client 输入如下:alter user ‘root’@‘localhost’ identified with mysql_native_password by ‘修改的密码’;你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用M
2020-05-12 18:54:15
336
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人