
机器学习
文章平均质量分 86
流川是海
这个作者很懒,什么都没留下…
展开
-
数据不平衡
1.是否符合真实样本分布?不符合,补充数据或调整样本权重2.注意看少数类的P\R,PR曲线训练模型前:欠采样、过采样和生成合成数据欠采样:从样本较多的类中再抽取,仅保留这些样本点的一部分;过采样:复制少数类中的一些点,以增加其基数;生成合成数据:从少数类创建新的合成点,以增加其基数。SMOTE第一种和第二种方法都会明显的改变数据分布,我们的训练数据假设不再是真实数据的无偏表述。在第一种方法中,我们浪费了很多数据。而第二类方法中有无中生有或者重复使用了数据,会导致过拟合的发生。调整概率阈值在s原创 2021-08-30 17:13:39 · 365 阅读 · 0 评论 -
决策树(Decision Tree)
定义基本原理先列举决策树算法最有名的几个版本哈,版本之间最明显的差异就是用于分裂节点的特征的选择标准不同,另外在应用场景(自变量离散或连续、因变量离散或连续)、剪枝、缺失值处理等操作上也有区别。函数假设:广义线性函数 f(x)=11+e−(wx+b)=11+e−wTxf(x)=\frac{1}{1+e^{-(wx+b)}}=\frac{1}{1+e^{-\textbf{w}^{T}\textbf{x}}}f(x)=1+e−(wx+b)1=1+e−wTx1损失函数:交叉熵损失函数L(θ)=−(y原创 2021-08-15 22:42:19 · 461 阅读 · 0 评论 -
GBDT系列(含XGBoost、LightGBM)
GBDT(Gradient boosting decision tree)下一个基学习器学习的是上一个基学习器的负梯度(当损失函数是平方损失时,等价于学习残差),最后预测结果是所有基学习器预测结果相加。由于残差只有回归场景下存在,所以GBDT基学习器都是回归树,但能通过预测类别概率来实现分类场景。Ft(x)=∑i=1tfi(x)F_{t}(x)=\sum_{i=1}^{t}f_i(x)Ft(x)=∑i=1tfi(x)l(y,Ft(x))=l(y,Ft−1(x)+(Ft(x)−Ft−1(x)))原创 2021-07-26 16:18:05 · 238 阅读 · 0 评论 -
逻辑回归( Logistics Regression)
定义逻辑回归( Logistics Regression)是一种以线性函数与假设来拟合自变量与因变量之间关系的方法。基本原理函数假设:线性函数损失函数:平方损失函数学习方法:最小二乘法梯度下降法优缺点优点实现简单可解释性强:模型的参数直观体现了每一个自变量对因变量的影响强弱缺点局限于线性函数假设对比应用场景回归预测:线性回归可以在拟合到已知数据集后用于预测自变量所对应的因变量。变量可解释性:线性回归可以用于量化因变量与自变量之间关系的强度。代原创 2021-02-16 16:21:34 · 276 阅读 · 0 评论 -
线性回归(Linear regression)
定义线性回归(Linear regression)是一种以线性模型假设来拟合自变量与因变量之间关系的方法。通常来说,当自变量只有一个的情况被称为一元线性回归,自变量大于一个的情况被称为多元线性回归。一元线性回归如下图所示,线性模型由图中直线表示。基本原理函数假设:线性函数损失函数:平方损失函数学习方法:最小二乘法梯度下降法存在自变量为x1,x2,...,xmx_1,x_2,...,x_mx1,x2,...,xm,因变量为yyy,假设x1,x2,...,xmx_1,x_2原创 2021-02-15 19:13:49 · 1444 阅读 · 0 评论