机器学习中的K近邻分类算法详解
1. 机器学习测试与风险应对
在机器学习中,测试的运行时间是一个重要考量。例如 bm.real.must_be < (time_to_run_last_time * 1.2) ,这意味着我们不希望测试运行时间比上一次多超过20%。
同时,机器学习存在一些特定问题,如不稳定数据、欠拟合、过拟合和不可预测的未来等。不过,可以通过以下启发式方法来缓解这些风险:
| 问题/风险 | 启发式方法 |
| — | — |
| 不稳定数据 | 接缝测试 |
| 欠拟合 | 交叉验证 |
| 过拟合 | 基准测试(奥卡姆剃刀) |
| 不可预测的未来 | 随时间进行精确率/召回率跟踪 |
精确率和召回率是监测机器学习实现效果的重要方式。精确率监测真正例的百分比,例如精确率为4/7意味着在提供给用户的7个结果中有4个是正确的。召回率是真正例与真正例加假反例的比率,若有4个真正例和9个相关情况,召回率就是4/9。计算精确率和召回率需要用户输入,这能形成学习闭环,随着时间推移改善数据。像Netflix会根据用户观看历史预测用户对某部电影的星级评分,若用户不同意并给出不同评分或表示不感兴趣,Netflix会将这些反馈用于未来预测。
2. 机器学习概述
机器学习是理论完善的计算机科学与实际嘈杂数据的交叉领域,本质上是让机器像人类一样从数据中获取意义。它是一种人工智能,通过算法从数据中提取模式。机器学习主要解决以下几类问题:
| 问题 | 机器学习类别 |
| — | — |
| 将数据拟合到函数或进行函数逼
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



