- 博客(22)
- 收藏
- 关注
原创 【无标题】
第三章 建模与模型评价第一节建模使用泰坦尼克号的数据集,完成泰坦尼克号存活预测的任务#第一步导入包import pandas as pd import numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import Imageimport os%matplotlib inline #matplotlib inline是IPython的魔法函数,可以在IPython
2022-03-25 00:59:55
2178
原创 数据分析-学术前沿趋势分析-论⽂数据统计
数据分析-学术前沿趋势分析任务1:论文数据统计任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;具体代码实现导入需要的python包#导入包import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图工具import seaborn as sns #画图工具from bs4 import
2021-01-14 01:03:09
288
原创 随机事件和随机变量
第一部分1、随机现象:在一定条件下,一件事件,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种。2、随机试验:实现随机现象的过程,记为E。3、随机试验满足三个条件:(1)可以在相同条件下重复进行;(2)结果有多种可能性,并且所有可能结果事先已知;(3)作一次试验究竟哪个结果出现,事先不能确定。4、样本空间:随机试验的所有可能结果组成的集合。记为Ω5、样本点:试验的每一个可能结果。记为ω6、随机事件:样本空间Ω中满足一定条件的子集。用大写字母A,B,C…表示。PS:随机事件在随机
2020-06-22 20:07:06
2854
原创 深度学习基础
感谢伯禹教育、Datawhale组织的活动一、线性回归(1)模型为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:(2)数据集我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真...
2020-02-14 18:35:25
166
原创 机器学习碎碎念之朴素贝叶斯
1、 相关概念生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔可...
2020-01-21 20:46:06
269
原创 机器学习碎碎念之聚类
1、聚类是一种无监督学习的方法。思想:物以类聚。按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不再同一个簇内的数据对象的差异性也尽可能的大。2、理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。3、性能度量...
2020-01-18 16:51:53
247
原创 机器学习碎碎念之决策树
1、决策树是一种基本的分类与回归方法。三大步:特征选择、决策树的生成、决策树的修剪。2、生成决策树的过程也是特征选择的过程,即:选择哪个特征作为树的分割点。它遵循if-then条件,我也整不明白的说法是在特征空间与类空间上的条件概率分布。3、决策树中有两种结点:叶子结点和非叶子节点,其中叶子结点代表条件,非叶子节点代表所属类别。4、信息熵越小,数据的稳定性越好,机器学习得到的结果越准确。信息...
2020-01-18 16:20:10
219
原创 机器学习碎碎念之逻辑回归
1、逻辑回归要做的事情:取出最大概率对应的类别,将数据二分类。2、逻辑回归做事的流程:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。包含逻辑回归的假设、逻辑回归的损失函数、逻辑回归的求解方法、逻辑回归的目的、逻辑回归如何分类。3、逻辑回归的原理:通过划定一个阈值,y值大于这个阈值的是一类,y值小于这个阈值的是另外一类。4、任何模...
2020-01-13 17:50:42
245
原创 机器学习碎碎念之线性回归
1、线性回归的字面解释线性:输入和输出变量之间的关系为一次方函数,即在空间上是一条直线。回归:在模型(函数、关系式、映射关系等)中输入数据,输出的结果是连续的值,这个过程叫回归。ps:回归是典型的监督学习。线性回归:在N维空间中使用直线方程拟合数据的过程。2、损失函数线性回归的过程是拟合空间的点使之成为一条直线。一千个人有一千种拟合的方式,需要评判的标准。最常用的损失函数形式如下:我...
2020-01-10 23:51:58
187
原创 机器学习的碎碎念之概述
1、Arthur Samul (1956)提出机器学习的概念:Field of study that gives computers the ability to learn without being explicitly programmed2、机器学习不是一个特定的算法,而是很多算法的总称,它让计算机在数据中学习进而预测。常见的算法有线性回归、支持向量机、决策树、随机森林、GBDT、...
2020-01-09 23:05:42
269
原创 Rstudio中修改工作路径的三种方法
Rstudio中修改工作路径的三种方法使用setwd()函数作用:起到临时更改路径的作用,只对当前的Rstudio窗口有效。一旦窗口关闭,又会回到默认路径下。getwd()函数是获取当前路径的函数。global options设置(如图所示)首先在tools菜单栏下,点击global options选项然后在default working directory 中可以修改默认工作...
2019-01-13 21:07:35
25960
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人