
机器学习
文章平均质量分 94
JOEL-T99
Try my best!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习 - 模型评估
模型评估二分类模型:交叉验证;准确率、召回率、F1F_1F1、阈值、ROC & AUC多分类模型:交叉验证;准确率、召回率、F1F_1F1回归模型:均方误差(MSE)、R2R^2R2聚类模型:轮廓系数评估方法留出法留出法(Hold-Out):直接将数据集划分为两个互斥的集合,分别作为训练集核测试集,训练出模型后用测试集来评估其测试误差。作为对泛化误差的度量数据集的划分要尽可能数据分布的一致性,避免分布差异造成对结果的影响。单次的留出法得到的结果往往不够可靠,应当采用若干次随机化分原创 2021-08-23 07:49:32 · 661 阅读 · 0 评论 -
无监督学习-聚类
聚类算法聚类: 是将数据集划分成簇(cluster)的任务,使得一个簇内的数据点非常相似不同簇内的数据点非常不同。k均值:可以用簇的平均值来表示簇,可看作一种分解方法。凝聚聚类:可以提供数据的可能划分的整个层次结构、可以通过树状图可视化。DBSCAN:可以检测噪声点、自动判断簇的数量,可应用于复杂形状。k均值聚类k均值k均值:视图找到代表数据特定区域簇中心(cluster center)。算法步骤:将每个数据点分配给最近的簇中心,然后将每个簇中心设置为所分配的所有数据点的平均值,如果簇的分配原创 2021-08-21 14:04:25 · 736 阅读 · 0 评论 -
监督学习算法
监督学习算法K近邻: 适用于小型数据集,可作为基准模型,易于理解。线性模型: 适用于大型数据集、高维数据集。朴素贝叶斯: 只适用于分类问题。比线性模型速度快,适用于非常大的数据集和高维数据,但精度通常低于线性模型。决策树: 速度快,不需要缩放数据,可视化显示,易于理解。随机森林: 鲁棒性好很好,不需要缩放数据,不适用于高维数据。梯度提升决策树: 精度比随机森林略高,训练速度稍慢但预测速度快,需要的内存也更少,比随机森林需要更多的参数。支持向量机: 对于特征含义相似的中等大小的数据集很强大,需要原创 2021-08-21 14:00:38 · 4118 阅读 · 0 评论