机器学习中的基础概念与文本垃圾邮件检测
1. 距离度量的基本性质
在机器学习中,距离度量是一个重要的概念,它有两个基本性质:
- 对称性 :Distance(A,B) = Distance(B,A),即从 A 到 B 的距离与从 B 到 A 的距离相同。
- 三角不等式 :Distance(A,B) <= Distance(A,C) + Distance(C,B),两点之间直接的距离是最短的。
有很多函数都满足这些性质,每个函数都以不同的方式定义相似性。不过,模型中的成本函数不一定需要满足所有这些性质,但如果不满足,需要考虑可能产生的意外副作用。例如,在曼哈顿距离的初始示例中,如果省略绝对值,就会违反非负距离和对称性规则。
2. 简单模型的优势
有效的模型不一定复杂。简单模型往往具有易理解和易修改的优点。这遵循了奥卡姆剃刀原则,即在解释某件事情时,当有多个模型可供选择时,应选择最简单的那个。只有当简单的解释不起作用时,才考虑复杂的模型。
建议先实现“最简单可行的方案”。可以给自己设定时间限制,比如一天、一周或一小时,用能想到的最笨、最简单的预测模型构建一个端到端的模型。这样做可能会发现这个简单模型已经足够好,若不够好,也能建立起合适的框架,包括数据集成和交叉验证,还可能发现数据集中潜在的问题。
3. 选择 F# 的原因
3.1 节省时间的交互和脚本环境
F# 的交互式和脚本环境能节省大量时间。在开发机器学习模型时,能够快速进行实验、修改代码并查看影响至关重要,而 F#
超级会员免费看
订阅专栏 解锁全文
1390

被折叠的 条评论
为什么被折叠?



