
数据分析
、 ♥ 盖世英雄
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据分析
数据分析基本概念 明确思路→数据收集《分布式爬虫实战》→数据处理→数据分析→数据展现 常用的收集途径: 公开信息,外部数据库,自有数据库,调查问卷,客户数据 数据清洗: 可读性,完整性,唯一性,权威性及合法性 常见的数据类型 1,类别型数据 (1)取值种类 (2)每类取值的分布 2,数值型变量 (1)极值和分位点 (2)均值和标准差 (3)变量间相关性 3,通用...原创 2019-07-18 10:59:23 · 242 阅读 · 0 评论 -
Matplotlib的figure对象和subplot对象
**Matplotlib的figure对象和subplot对象** Matplotlib Matplotlib:是一个用于创建出版质量图表的桌面绘图包 import matplotlib.pyplot as plt pyplot模块包含Matplotlib API函数 figure Matplotlib的图像均位于figure对象中 创建figur...原创 2019-07-24 12:21:22 · 3941 阅读 · 1 评论 -
数据加载,存储与文件格式(非完整版)
读取文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数 其中read_csv和read_table用的比较多 pandas中的解析函数 函数 说明 read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号 read_table 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符(“\t”) ...原创 2019-08-30 23:17:58 · 240 阅读 · 0 评论 -
数据分析的三个机器学习算法
数据分析的三个机器学习算法 knn算法(邻近算法) 采用测量不同特征值之间的距离方法进行分类 优点:精度高,对异常值不敏感,无数据输入假定。 缺点:时间复杂度高,空间复杂度高。 1、当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很小,输入一个样本的时候,K个临近值中大多数都是大样本容量的那个类,这时可能就会导致分类错误。改进方法是对K临近点进行加权,也就是距离近的点的权值大,距离远的点...原创 2019-09-26 20:20:33 · 1731 阅读 · 0 评论