
R语言数据分析
文章平均质量分 94
不想生产学术垃圾
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据基础作业四:线性回归
文章目录1.Baseball数据集的作业二、使用步骤1.引入库2.读入数据总结 1.Baseball数据集的作业 示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 二、使用步骤 1.引入库 代码如下(示例): import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnin.原创 2021-11-08 00:20:31 · 1816 阅读 · 0 评论 -
大数据作业三:降维PCA
文章目录一、作业题目二、棒球数据集处理1.过滤和标准化(1)实验代码(2)原理介绍(3)实验结果(4)结果解释2.使用PCA(1)实验代码(2)实验原理(3)实验结果(4)结果解释3.根据不同判据选取主成分三、棒球数据集处理1.对观测变量进行标准化(1)实验代码(2)原理分析(3)实验结果(4)结果解释2.查看各个观测变量之间的线性相关性(1)实验代码(2)原理分析(3)结果展示(4)结果解释3.使用PCA根据四个判据选主成分(1)实验代码(2)原理分析(3)实验结果(4)结果解释 一、作业题目 work原创 2021-10-26 17:21:08 · 1790 阅读 · 0 评论 -
PCA学习
文章目录一、PCA相关资源二、使用降维算法的原因1.去除观测变量之间的相关性2.模型需要的样本数量随着变量(特征)数量指数增加3.变量太多,难以解释4.变量太多,容易过拟合三、PCA的推导1.向量表示与基变换1.1 内积1.2 基1.3 基变换的矩阵表示2. 最大可分性四、PCA结果的解释 一、PCA相关资源 网上讲解PCA的资源很多,讲的好的也很多,我的数学基础也不比在座的各位高到哪里去,就不班门弄斧了。下面得这篇知乎高赞很值得推荐: 【机器学习】降维——PCA(非常详细) 那我为什么还要再搞一篇博客呢原创 2021-10-26 15:30:27 · 799 阅读 · 0 评论 -
大数据基础与应用课程作业2:数据探索
文章目录一、作业题目二、题目解答1.观察数据(1)实验代码(2)原理介绍(3)实验结果(4)结果解释2.查看数据前十行(1)实验代码(2)原理介绍(3)实验结果(4)结果解释3.调查具有相关性的变量(1)实验代码(2)原理介绍(3)实验结果(4)结果解释4.对分类变量构建条形图(1)实验代码总结 一、作业题目 22题至35题,其中27题不用做。 作业使用数据集是adult数据集,链接: adult数据集 密码:6666 二、题目解答 1.观察数据 第22题:观察数据,查看哪些特征是分类变量,哪些是连续的数原创 2021-10-19 18:24:38 · 2118 阅读 · 3 评论 -
大数据基础与应用课程作业一:数据预处理
目录数据预处理作业题目一、总览二、R和Rstudio一些操作1.R注释2.工作路径的设置3.清除历史记录、变量等三、预处理工作1.查看数据是否具有缺失值(1)实验代码(2)原理介绍(3)实验结果(4)结果解释2.检查state和Area.code字段的异常3.可视化检查CustServ.Calls的离群点(1)实验代码(2)原理介绍(3)实验结果(4)结果解释4.使用z-score、IQR方法判断CustServ.Calls离群点(1)实验代码(2)原理介绍(3)实验结果(a)z-score结果(b)箱线图原创 2021-10-02 16:35:55 · 2926 阅读 · 1 评论