- 博客(5)
- 收藏
- 关注
原创 常见的损失函数及适用场景
适用于二分类问题,特别是AdaBoost算法。指数损失对误分类的惩罚随误差增加而指数增加。适用于二分类问题,特别是支持向量机中。Hinge损失对误分类的惩罚比正确分类的奖励更大。适用于回归问题,特别是误差大小和误差绝对值成正比时。适用于回归,特别是当需要评估预测值和真实值之间的百分比误差时。适用于回归问题,特别是误差大小和误差平方根成正比时。适用于回归问题,特别是误差大小和误差平方成正比时。多分类使用多分类交叉熵损失。4.Huber损失(平均绝对百分比误差MAPE)1.均方差损失函数(MSE)
2025-03-23 17:34:37
480
原创 信息熵,交叉熵,相对熵
相对熵可以理解为从概率分布P转换到概率分布Q所需要的额外信息量。相对熵时非负的,当且仅当P和Q完全相等时,相对熵为0.交叉熵可以理解为使用概率分布Q来编码真实分布P所需要的平均信息量。当P和Q完全相同时,交叉熵=信息熵。信息熵反映了随机变量X的平均信息量,当X分布更加均匀时,信息熵更大,表示X的不确定性更高。衡量两个概率分布P和Q之间差异的度量。对于离散随机变量X,其真实分布为P,预测分布为Q。衡量两个概率分布P和Q之间差异的另一种度量。衡量一个随机变量不确定性的度量。
2025-03-23 17:13:41
258
原创 分类算法和聚类算法的区别
K均值(k-means),层次聚类,DBSCAN(Density-Based Spatial Clustering of Applications with Noise),谱聚类。需要先提供有标签的训练数据,模型通过学习训练数据中的特征与标签之间的关系,来对新的无标签数据进行分类。决策树,支持向量机(SVM),K近邻(KNN),朴素贝叶斯,神经网络。不需要提供标签,根据数据本身的特征相似性,将数据划分为不同的簇。将数据分为未知的类别,是一种无监督学习方法。将数据分为已知的类别,是一种监督学习方法。
2025-03-22 15:40:19
252
原创 过拟合,欠拟合
2.正则化:(1)L1正则化,例如Lasso回归(2)L2正则化,例如岭回归。模型在训练数据集上表现很好,但在模型没有见过的新数据集上表现就很差。3.早停:在验证集上监控模型的性能,当验证集的性能不再提升时,停止训练。模型在训练数据集上表现地不好,在没见过的新数据集上表现也不好。
2025-03-22 01:57:48
619
原创 监督、无监督、半监督、强化学习
K-means聚类、层次聚类、DBSCAN聚类、主成分分析(PCA)、自编码器(用于降维)、t-SNE(用于高维数据可视化)、Apriori算法(用于关联规则挖掘)、 Isolation Forest(用于异常检测)训练数据包含输入特征x和输出标签y,模型的训练目标是学习输入x到输出y的映射函数。(相当于试错,对了奖励,错了惩罚,然后就长记性了,找到最优策略了)Q-learning,SARSA,深度Q网络,策略梯度方法,近段策略优化(PPO)自学习,伪标签,协同训练,图半监督学习,生成对抗网络(GAN)
2025-03-21 02:16:52
660
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅