机器学习面试题总结

本文探讨了KNN算法中K值选择的影响,包括近似误差与估计误差的权衡,以及过拟合风险。同时,介绍了决策树的生成过程,包括节点划分原则、递归终止条件及剪枝策略,旨在帮助读者理解两种常见机器学习算法的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

KNN

  • K值的选择会对k近邻的结果产生影响
    如果 K值选择较小,相当于用较小邻域的训练实例进行预测,近似误差减小,只有与输入实例较近的训练实例才会对预测结果起作用。缺点是估计误差会增大,预测结果对近邻实例比较敏感。如果近邻实例恰巧是噪声,预测就会出错。K值减小意味着整体模型变得复杂,容易发生过拟合
    如果K值选择较大,就相当于用较大邻域的训练实例进行预测 ,优点是减少估计误差,缺点是学习的近似误差会增大这时与输入实例较远的训练实例也会起预测作用,使预测发生错误。K值增大意味着模型整体变得简单。
    如果K=N,无论输入实例是什么,都将它预测为训练实例中大多数实例的类。模型过于简单,完全忽略训练中的大量有用信息。
    在应用中,K一般选取较小的数值,通常采用交叉验证法选择最优K

  • 分类决策规则
    k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个近邻的训练实例的多数类决定输入实例的类别。

  • 距离度量
    特征空间的两个实例点的距离度量是两个实例点相似程度的反应。常使用欧式距离,也可使用更为一般的LPL_PLP距离。
    明可夫斯基距离(Minkowski distance)
    p=1p=1p=1,变为曼哈顿距离
    p=2p=2p=2,变为欧几里得距离
    p=∞p=\inftyp=,变为切比雪夫距离

决策树

  • 讲一下决策树
    一般,一棵决策树包含一个根节点,若干个内部节点和若干叶节点,叶节点对应于决策结果,其他每一个节点对应于一个属性测试。每个节点包含的样本集合根据属性测试结果被划分到子节点中;根节点包含全部样本集。从根节点到每个叶节点的路径对应了一个判定测试序列
    决策树的生成是一个自顶向下的递归过程,基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0.

  • 决策树的生成算法
    关键点:如果选择最优的划分属性
    目标:决策树分支节点包含的样本尽可能属于同一类别,即节点的纯度越来越高
    根据不同的目标函数,建立决策树主要有以下三种算法:

  • ID3

  • C4.5

  • CART

  • 决策树的剪枝

  • 讲一下什么是信息熵,什么是条件熵?
    信息熵是度量样本集合纯度最常用的一种指标,假设当前样本集合D中第k类样本所占比例为pk(k=1,2,3,....∣y∣)p_k (k=1,2,3,....|y|)pk(k=1,2,3,....y),则D的信息熵定义为
    Ent(D)=−Ent(D)=-Ent(D)=
    信息熵值越小,表示纯度越高。

  • 决策树算法三种情形导致递归返回

  • [ 1] 当前节点包含的样本属于同一类,无需划分。

  • [ 2] 当前属性集为空,无法划分。此情况下,将当前节点标记位叶节点,将其类别设定为,所含样本最多的类别;利用当前节点的后验分布(有样本无属性)

  • [ 3]当前节点包含的样本集合为空,不能划分。次情况,将当前节点标记位叶节点,将其类别设定为其父节点所含样本最多的类别;利用父节点的先验分布(有属性无样本)

基于Spring Boot搭建的一个多功能在线学习系统的实现细节。系统分为管理员和用户两个主要模块。管理员负责视频、文件和文章资料的管理以及系统运营维护;用户则可以进行视频播放、资料下载、参与学习论坛并享受个性化学习服务。文中重点探讨了文件下载的安全性和性能优化(如使用Resource对象避免内存溢出),积分排行榜的高效实现(采用Redis Sorted Set结构),敏感词过滤机制(利用DFA算法构建内存过滤树)以及视频播放的浏览器兼容性解决方案(通过FFmpeg调整MOOV原子位置)。此外,还提到了限管理方面自定义动态加载器的应用,提高了系统的灵活性和易用性。 适合人群:对Spring Boot有一定了解,希望深入理解其实际应用的技术人员,尤其是从事在线教育平台开发的相关从业者。 使用场景及目标:适用于需要快速搭建稳定高效的在线学习平台的企业或团队。目标在于提供一套完整的解决方案,涵盖从资源管理到用户体验优化等多个方面,帮助开发者更好地理解和掌握Spring Boot框架的实际运用技巧。 其他说明:文中不仅提供了具体的代码示例和技术思路,还分享了许多实践经验教训,对于提高项目质量有着重要的指导意义。同时强调了安全性、性能优化等方面的重要性,确保系统能够应对大规模用户的并发访问需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值