
数据分析
文章平均质量分 83
Y_Wolf
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R语言数据降维——主成分分析
R语言数据降维——主成分分析一、项目环境开发工具:RStudioR:3.5.2相关包:sqldf,dplyr二、导入数据# 这里我们使用的是鸢尾花数据集(iris)data(iris)head(iris)Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies15.13.51.40.2s...原创 2019-07-07 17:27:35 · 10284 阅读 · 0 评论 -
R语言数据预处理——离散化(分箱)
R语言数据预处理——离散化(分箱)一、项目环境开发工具:RStudioR:3.5.2相关包:infotheo,discretization,smbinning,dplyr,sqldf二、导入数据# 这里我们使用的是鸢尾花数据集(iris)data(iris)head(iris)Sepal.LengthSepal.WidthPetal.LengthPetal....原创 2019-07-14 16:32:21 · 13879 阅读 · 4 评论 -
R语言解决数据不平衡问题
R语言解决数据不平衡问题一、项目环境开发工具:RStudioR:3.5.2相关包:dplyr、ROSE、DMwR二、什么是数据不平衡?为什么要处理数据不平衡? 首先我们要知道的第一个问题就是“什么是数据不平衡”,从字面意思上进行解释就是数据分布不均匀。在我们做有监督学习的时候,数据中有一个类的比例远大于其他类,或者有一个类的比值远小于其他类时,我们就可以认为这个数据存在数据不平衡...原创 2019-07-07 11:16:23 · 9015 阅读 · 11 评论 -
R语言中的管道操作——magrittr包
R语言中的管道操作——magrittr包一、项目环境开发工具:RStudioR:3.5.2相关包:magritter二、数据准备以及问题阐述这次要解决的问题是如何使用提取数据框中所有包含缺失值的列。我们知道当我们在处理缺失值时,我们经常会使用平均数、中位数、回归、甚至机器学习等方式来填补数据框中的缺失值。但是在实际的分析过程中,在进行缺失值处理之前,我们往往会花大量的时间来探究缺失...原创 2019-07-28 22:28:57 · 2124 阅读 · 0 评论