- 博客(17)
- 收藏
- 关注
原创 第九章习题
在机器学习中,聚类是将相似的实例组合在一起的无监督任务。相似性的概念取决于你手头的任务:例如,在某些情况下,两个附近的实例将被认为是相似的,而在另一些情况下,只要它们属于同一密度组,则相似的实例可能相距甚远。流行的聚类算法包括K-Means、 DBSCAN、聚集聚类、BIRCH、均值平移、亲和度传播和光谱聚类。标记数据集既昂贵又费时。因此,通常有很多未标记的实例,很少有标记的实例。标签传播是一种技术,该技术包括将部分(或全部) 标签从已标记的实例复制到相似的未标记实例。
2022-09-05 18:49:34
276
原创 第七章习题
但是,boosting集成的每个预 测器都是基于其前序的结果,因此训练过程必须是有序的,将其分布在 多个服务器上毫无意义。对于stacking集成来说,某个指定层的预测器 之间彼此独立,因而可以在多台服务器上并行训练,但是,某一层的预 测器只能在其前一层的预测器全部训练完成之后才能开始训练。如果它们是在不同的训练 实例(这是bagging和pasting集成的关键点)上完成训练,那就更好 了,但如果不是,只要模型非常不同,这个集成仍然有效。所以,如果训练使用的实例越多,集成的性能 可以略有提升。
2022-09-02 17:50:29
987
原创 第六章习题
一个包含m个叶节点的均衡二叉树的深度等于log2(m)(注: log2是基2对数,log2(m)=log(m)/log(2)。通常来 说,二元决策树(只做二元决策的树,就像Scikit-Learn中的所有树一 样)训练到最后大体都是平衡的,如果不加以限制,最后平均每个叶节 点一个实例。该算法分裂每个节点的方法,就是使其子节点的基尼不 纯度的加权之和最小。所以,如果将训练 集大小乘以10,训练时间将乘以K=(n×10m×log(10m))/ (n×m×log(m))=10×log(10m)/log(m)。
2022-09-02 14:47:38
503
原创 第五章习题
支持向量机的训练完成后,位于“街道”(参考上一个答案)之上的实例被称为支持向量,这也包括处于边界上的实例。决策边界完全 由支持向量决定。非支持向量的实例(也就是街道之外的实例)完全没 有任何影响。你可以选择删除它们然后添加更多的实例,或者将它们移 开,只要一直在街道之外,它们就不会对决策边界产生任何影响。计算 预测结果只会涉及支持向量,而不涉及整个训练集。
2022-09-02 13:44:10
311
原创 第四章练习题
具有某些正则化的模型通常比没有任何正则化的模型要好,因 此,你通常应优先选择岭回归而不是简单的线性回归。这是一种自动 进行特征选择的方法,如果你怀疑实际上只有很少的特征很重要,那么 这是一种很好的方法。如果你不确定,则应首选岭回归。如果训练误差和验证误差几乎相等且相当高,则该模型很可能欠 拟合训练集,这意味着它具有很高的偏差。如果你要将图片分类为室外/室内和白天/夜间,因为它们不是 排他的类(即所有四种组合都是可能的),则应训练两个逻辑回归分类器。如果训练错误没有增加则已经过拟合训练,应该停止训练。...
2022-08-28 14:37:28
396
原创 机器学习实战:第一章
第一章是对机器学习的一些概念介绍,定义了若干专业术语。列举了很多机器学习的各类实例。给出了一个“金钱能使人更快乐吗”的具体模型,使用scikit-learn训练,暂时理解起来有困难,继续学习后回头尝试理解。......
2022-07-24 23:04:07
543
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人