- 博客(12)
- 资源 (1)
- 收藏
- 关注
原创 如何理解逻辑回归中的损失函数
逻辑回归是一种有监督的分类模型,常用于二分类。 线性模型的公式是y(x)=θ0+θ1x1+θ2x2+...+θnxny(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_ny(x)=θ0+θ1x1+θ2x2+...+θnxn,及y(x)=θTxy(x)=\theta^Txy(x)=θTx。将线性模型带入sigmod函数就是用于二分类的逻辑回归:y(x)=11+e−θTxy(x)=\frac{1}{1+e^{-\theta^T x}}y(x)=1
2021-01-26 16:50:37
1092
原创 LDA降维的讲解
LDA简介 LDA根据带标签的数据点,将点投影到维度更低的空间中,使得投影后的点,**按照类别进行区分,同一类别的数据点,在投影后的空间中更接近。**这时类间距离最大化并且类内距离最小 LDA的数学推导 举一个简单的例子,假设有两个样本C1和C2C_1和C_2C1和C2,均值分别是μ1,μ2\mu_1,\mu_2μ1,μ2,投影方向为www,则投影后两个样本的距离就可以表示为:PCA降维全过程文章的补充中有投影的计算 D(C1,C2)=∣∣wT(μ1−μ2)∣∣2(1式) D(C_1,C_2)=||
2020-11-05 18:43:08
1665
1
原创 PCA降维全过程
PCA的目的 将原有的d维数据集,转换成k维的数据(k<d) 新生成的k维数据尽可能的包含原来d维数据的信息 PCA的数学推导 假设对n个样本xix_ixi进行PCA处理,先对数据进行中心化,即将数据的均值变为0(为了后面计算的方便,不用减去mean) 1N∑i=1Nxi=0 \frac{1}{N}\sum_{i=1}^{N}x_i=0 N1i=1∑Nxi=0 则数据集的协方差矩阵为 Cov(xi,xj)=1n∑i=1n(xi−μi)(xj−μj) Cov(x_i,x_j)=\frac{1
2020-10-31 12:45:51
1996
1
原创 DataWhale数据挖掘-Task4&5
特征选择 特征选取 从文字、图像、声音等其他非结构化的数据中提取信息作为特征 特征创造 把现有的特征进行组合,或相互计算得到新的特征 特征选择 从所有的特征中,选择出有意义、对模型有帮助的特征,避免将所有的特征都导入到模型中 选择特征的方法 过滤法 嵌入法 包装法 降维算法 决策树 决策树是一种有监督的方法,它能从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。 剪枝 在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有
2020-08-25 20:17:32
253
原创 DataWhale数据挖掘-Task3笔记
时间序列分解 一个时间序列通常是几类变化形式的叠加或是耦合。包括长期趋势、循环波动、季节性变化和随机波动 长期趋势T:指在较长时期内持续发展变化的一种趋向或状态 循环波动C:不具严格规则的周期性连续变动 季节波动S:指由季节的变化引起的变动 随机波动I:偶然因素对时间序列造成的影响 时间序列分解模型 加法模型 Yt=Tt+St+Ct+It{Y_t = T_t+S_t+C_t+I_t}Yt=Tt+St+Ct+It 在加法模型中四种成分之间是相互独立的。 乘法模型 Yt=Tt∗St∗Ct∗
2020-08-24 22:18:57
286
1
原创 分类问题和回归问题
分类问题 分类问题的目标是根据已知样本的某些特征,判断一个新样本属于哪个已知的样本类。根据类别的数量可以进一步将分类问题划分为二元分类和多元分类,例如判断图片中动物的种类是猫、狗或是其它。 回归问题 回归问题用来预测一个值,比如未来的天气情况。 分类和回归的区别 分类是预测一个标签,回归是预测一个数量 分类是给一个样本预测离散型类别标签 回归是给一个样本预测连续输出量 ...
2020-08-23 19:01:28
448
原创 DataWhale数据挖掘-Task2笔记
基于周期因子的时间序列预测 1、时间序列分析是根据过去的变化趋势来预测未来的发展。 2、时间序列数据变动存在着规律性和不规律性 趋势性 周期性 随机性 综合性 周期因子法 提取时间序列的周期性特征进行预测 预测 = 周期因子 * base 获取周期因子的方法 除以周均值,按列取中位数 季节指数的计算方式,获取每日(工作日或周末)均值,再除以整体均值 未待续 ...
2020-08-22 21:07:23
216
原创 DataWhale数据挖掘-Task1笔记
Q:数据处理-为什么要使用One-Hot 在机器学习的模型需要的数据是数字类型的,而特征有时候不是连续值,可能是一些分类值,比如性别分为male和female。通常我们需要对这类特征进行特征 数字化。 One-Hot介绍 One—Hot编码,又称为一位有效编码,主要使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效 One—Hot使用 Q:有如下的三个特征属性,有一个样本[“male”,“US”,“Internet Explorer”]使用One—Hot进行编码
2020-08-20 18:53:52
349
原创 Matplotlib可视化--有序条形图(笔记)
该例子来自于机器学习网站MachineLearning Plus上的博文:Python可视化50图 import numpy as np import pandas as pd import matplotlib.patches as patches import matplotlib.pyplot as plt 准备数据 df_raw = pd.read_csv('https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv') df.
2020-06-17 10:08:22
673
原创 机器学习--朴素贝叶斯(GaussianNB)
朴素贝叶斯之鸢尾花数据集 import numpy as np import pandas as pd import random 读取数据 dataSet = pd.read_csv('./data/iris.txt', header=None) dataSet.head() 0 1 2 3 4 0 5.1 3.5 1.4 .
2020-06-16 17:36:20
7114
原创 Maplotlib可视化--散点图中包围数据集的点
在散点图中包围不同数据集 1、导入使用的库 import matplotlib.pyplot as plt import numpy as np from scipy.spatial import ConvexHull 2、绘制简单的散点图 x1 = [1,2,4,5,6] x2 = [4,2,5,6,3] plt.scatter(x1,x2); 3、绘制多边形 3.1、构造坐标 p = np.c_[x1,x2] # p是x1为横坐标,x2为纵坐标的点(第0列是x1,第1列是x2) print(.
2020-06-14 08:14:04
452
原创 Matplotlib可视化--散点图(笔记)
本文使用的环境是jupyter notebook,目的是画实战中的散点图,该例子来自于机器学习网站MachineLearning Plus上的博文:Python可视化50图 1、需要使用的库 # 导入需要的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 让jupyter notebook能显示图像 %matplotlib inline matplotlib.pyplot的开发文档 2、绘制单色.
2020-06-13 16:06:43
2357
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅