机器学习实用知识与性能评估
机器学习实用知识
在机器学习领域,有许多实用的知识和技巧,这些对于解决实际问题至关重要。
1. 学习偏差与实际问题
- 学习偏差 :“没有偏差就没有学习”这一观点有数学论证支持,并且在实际应用中也得到了验证。不同的偏差在机器学习中具有重要意义。
- 时变类问题 :有时,底层类的含义依赖于具体的上下文,而上下文会随时间变化,这就产生了时变类的问题。
- 不平衡训练集 :经典的机器学习技术通常假设训练集中的各类别都有足够的样本。但在实际中,训练集不平衡的情况很常见。解决不平衡训练集问题最典型的方法是多数类欠采样和少数类过采样。
2. 缺失值处理
在许多训练集中,部分属性值是未知的,这会使某些归纳技术的使用变得复杂。一种解决方案是用给定属性的最频繁值或平均值来替代未知值。例如,对于一个包含多个样本和属性的训练集,若某个属性存在缺失值,可以统计该属性在其他样本中的取值,找出最频繁出现的值,将其填充到缺失位置。
3. 属性选择
工程师常常需要选择最合适的属性集。主要有两种基本方法:过滤技术和包装技术。过滤技术是基于属性的某些统计特征来选择属性,而包装技术则是将属性选择过程与学习算法相结合,通过评估学习算法的性能来选择属性。
4. 多标签领域
在一些领域,如文本分类,每个示例可以同时被标记为多个类别,这就是多标签领域。通常的解决方法是为每个类别诱导一个单独
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



