图像分类数据集有CIFAR-10、ImageNet
应用:情感分类
关键:将样本x从文本形式转为向量形式 词袋模型(Bag-of-Words,BoW)
模型性能的评估指标
混淆矩阵(confusion matrix)
对于二分类问题,根据每一个样本的真实标签𝒚 和预测标签𝒚 ෝ的差异,可以 得到一个2*2的矩阵

对于多分类(N)问题,可以得到一个N*N的矩阵
二分类评价指标

三分类评价指标
micro策略
指把所有的类放在一起算,即所 有类的TP加和,再除以所有类的 TP和FP的加和。因此, micro方 法下的precision和recall都等 于accuracy。

macro策略
先分别求出每个类的precision再算术平均
![]()
Weighted策略
weighted算法不再是取算术平均, 而是 乘以该类在总样本数中的占比作

本文介绍了将文本样本转化为向量的词袋模型,探讨了模型性能评估的混淆矩阵,以及在二分类和多分类问题中使用的微策略、宏策略和加权策略。重点讲解了逻辑斯蒂回归及其在多分类中的softmax函数扩展,包括梯度下降过程和损失函数计算。以Iris数据集为例,展示了多分类问题的处理方法。
最低0.47元/天 解锁文章
262

被折叠的 条评论
为什么被折叠?



