自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 数据预处理_数据相关性分析

相关性分析1、相关性分析是指对多个具备相关关系的变量进行分析,从而衡量变量间的相关程度或密切程度2、相关性可以应用到所有数据的分析过程中,任何事物之间都是存在一定的联系3、为了更准确描述变量之间的相关程度,通过计数相关系数来表示,在二元变量的相关分析中用相关系数®表示,而常用的有Pearson相关系数(皮尔逊相关系数) 和Spearman秩相关系数(斯皮尔曼相关系数)相关系数取值范围:-...

2020-04-13 15:54:48 11341 1

原创 数据SQL语言_SQL联接

二,SQL联接2.1、( INNER )JOIN…ON…语句,INNER JOIN…ON…语句,仅提取两个表中都存在的数据需要注意的是,必须在SELECT语句中指定列所来自的每个表。实体关系图中主键(PK)是表中的唯一列,是每个表的第一列。在大多数数据库中,主键通常是表中的第一列。 外键(FK) 是表中的一列,它是另一张表中的主键。 每个外键都连接到另一个表的主键。SQL...

2020-04-13 13:35:35 325

原创 星巴克店铺数据集描述性分析

项目简介本次项目会利用pandas数据分析方法和matplotlib可视化手段对星巴克店铺的分布情况进行分析。数据来源本次使用的数据集来源于Kaggle官网,含有13个字段信息:Brand 品牌StoreNumber 店铺号码StoreName 店铺名称Ownership Type 所有权类型StreetAddress 街道地址City 店铺所在城市State/Provin...

2020-04-13 11:16:52 7224

原创 数据库SQL语言_SQL基本

一,基本SQL1.1、基本概念1、实体关系图(ERD)实体关系图(ERD,Entitiy Relationship Diagram)是数据库中数据视图常用的方法,可以将数据库表格的关系可视化。实体关系图是可以了解从多个表中提取数据的关键要素。实体关系图如下所示:PK代表表主键,FK代表表外键。2、什么是SQLSQL是一门用于数据库交互的语言。可以查询一个表,也可以查...

2020-04-13 09:41:51 3635 3

原创 数据预处理_标准化和分类数据转换

数据说明本次演练的数据集为某企业业务部门的客户数据,将对该数据集进行数据预处理等操作。从返回信息可知,数据结构为(1000,5),1000条数据,5个字段,分别是:用户ID(USER_ID)平均用户订单数量(AVG_ORDERS)平均订单价值(AVG_MONEY)是否活跃(IS_ACTIVE)性别(SEX),0(未知),1(男),2(女)通过以上数据说明,可以发现有...

2020-04-12 18:47:01 2157

原创 数据预处理_异常值处理

异常值1.异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析2.异常值的处理,先是辨别出哪些是异常值,再根据实际情况选择如何处理异常值。伪异常,比如由于特定业务运营而产生的;真异常,并非业务运营而产生的,是客观反映数据本身存在异常的分布。3.异常值分析3σ原则箱型图4.异常值的处理方法剔除异常值视为缺...

2020-04-12 18:45:53 8294 3

原创 数据预处理_缺失值处理

缺失值处理数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著缺失值处理丢弃 → 删除插补 → 均值、中位数、众数插补 / 临近值插补 / 插值法不处理# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShe...

2020-04-12 18:43:10 1990

原创 数据可视化_seaborn分布数据可视化

seaborn整体风格设置sns.set() → 整体设置seaborn的主题,调色板,颜色代码等多个样式# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' #默认为'last'# 导入相关库imp...

2020-04-12 17:06:51 880

原创 共享单车数据集分析-描述性数据报告输出

2020-04-12 15:14:47 787

原创 美国某城市16年公务员工资集描述性分析

项目背景本次练习使用的数据集为美国城市巴尔的摩2016年公务员工资的数据集,将通过数据可视化和数据描述性分析等手段,分析其工资分布情况。数据来源本次使用的数据集可以从 https://catalog.data.gov/dataset/baltimore-city-employee-salaries-fy2016该网站进行下载。其中,一共有13818条数据,7个字段,分别为:Name(姓...

2020-04-12 14:45:24 1851

原创 数据分析_小费数据集描述性分析

项目介绍众所周知,在西方国家的服务行业中,顾客会给服务员一定金额的小费。本次项目研究对象是餐饮行业收集到的小费数据。数据获取本次项目的数据来源是python第三方库seaborn中自带的数据。数据集中含有7个字段,包括有消费总金额(totall_bill)(不含小费),小费金额(tip),顾客性别(sex),消费的星期(day),消费的时间段(time),用餐人数(size),顾客是否抽烟(...

2020-04-12 14:38:47 4520 1

原创 数据获取_数据库数据的读取

读取MySQL数据库MySQL数据库是开源的关系型数据库,可以通过python与其进行连接。首先需要安装第三方库pymysql → pip install pymysql并且电脑上已经安装好该数据库# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node...

2020-04-12 14:24:27 2715

原创 数据获取_json文件读取和存储

什么是JSON文件?JSON数据是一种轻量级得数据交换格式,因起简洁和清晰得层次结构使JSON成为理想的数据交换语言。import pandas as pdimport numpy as npimport osos.chdir(r'E:\python_learn\train') # 相对路径json文件读取 → pd.read_jsonread_json读取json文件后,返回...

2020-04-12 14:20:30 823

原创 数据获取_文本数据获取和存储

读取txt文件 → pd.read_tableread_table,读取通用分隔符分隔得文件到数据框,返回DataFrame# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' #默认为'last'# ...

2020-04-12 14:16:35 407

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除