机器学习_周志华_问题汇总_第2周

最新推荐文章于 2021-12-12 13:56:01 发布

原创

最新推荐文章于 2021-12-12 13:56:01 发布 · 3.6k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文汇总了机器学习中的常见问题，包括文本分类错误分析、Bagging与朴素贝叶斯的关系、LinearSVC在集成学习中的表现、异常值处理策略、逻辑回归对偶形式及代价函数的来源等。同时分享了相关资源，如逻辑回归的优化函数推导和决策树算法解析。

问题

Q1 如果我想分析一下文本分类错误的原因，应该从哪些方面入手？

可以去分析一下哪个类别错误率高，然后看看这个类别的是否不平衡，针对这个类别看看能不能进行改进。
还有就是数据量过少，或是数据质量较差(比如人为标注的样本可能类别是不正确的)，都会影响到模型的学习。
因为分类错误这个受特征和模型的参数影响也很大，这可以从这两个方面考虑一下。

Q2 为什么Bagging难以提升朴素贝叶斯分类器的性能？

朴素贝叶斯分类器，主要是依靠数据集的这些样本用极大似然的方法估计总体分布，所以当然是数据集越大越好。
而Bagging每个基学习器只抽取一部分样本，自然训练出来的朴素贝叶斯分类器很差，所以集成后也基本不太可能有大的提升。

Q3 为什么我用LinearSVC做基分类器的时候，不管是Bagging还是Adaboost都和单个分类器一模一样呢，增加分类器个数结果也完全不变

一般模型的上限由特征决定，而你的几个模型的特征可能相同，所以会相似。
而Bagging并不一定比单模型好啊，bagging每个基模型都只用了一部分数据，基分类器比较弱啊，所以有可能在基分类器的基础上提升很小。
但是，如果是完全10个完全不认识的人做10个模型，最后将10个结果结果进行投票决定，那么这个肯定是比单模型有提升的，因为你们10个模型都好而不同。但是bagging无法保证这一点。

Q5 3.15是什么意思啊？y不应该是等于e的（W.tx＋b）次方吗

3.15的意思就是 g(y)是一个线性模型，而y不是，所以称为广义线性模型。而这里的函数g并不一定是ln,所以y不应该等于e的*

Q6 logisticRegression的对偶形式会讲解吗，或者有参考资料数学公式吗吗。我在运行课程代码的时

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。