17、人工智能中的机器学习：原理、方法与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/work3/article/details/154984633

人工智能中的机器学习：原理、方法与应用

1. 机器学习基础

机器学习的核心在于算法，它是解决问题的程序或公式。不同的问题领域需要不同的算法，但基本目标都是解决特定问题，比如开车将乘客安全送达目的地，或者玩多米诺骨牌并获胜。

一个单独的学习算法可以学习很多不同的东西，但并非每个算法都适用于特定任务。有些算法通用性很强，能下棋、在Facebook上识别面孔，还能诊断患者的癌症。算法会将数据输入和这些输入的预期结果简化为一个函数，不过这个函数是针对你希望算法执行的特定任务的。

机器学习的关键是泛化，但泛化会带来过拟合和数据偏差的问题。目标是让输出函数具有泛化能力，使其在训练示例之外的数据上也能正常工作。例如，对于一个垃圾邮件过滤器，假设字典中有100,000个单词（一个小字典），一个仅有4000或5000个单词组合的有限训练数据集，必须创建一个泛化函数，该函数要能在实际处理数据时，从(2^{100,000})种组合中找出垃圾邮件。在这种情况下，算法看似学会了语言规则，但实际上效果并不好。它可能对与训练数据相似的情况做出正确响应，但在全新的情况下就会不知所措，或者由于训练数据的类型而出现意外的偏差。

微软的AI聊天机器人Tay就是一个例子。微软让Tay在Twitter上与人聊天并从回复中学习，但交互过程失控了，因为用户向Tay展示了仇恨言论。问题在于机器学习算法使用了未经过滤的不良数据（微软没有进行适当的数据分析来清理和平衡输入），导致结果过拟合。过拟合选择了错误的函数集来概括地表示世界，从而产生了如仇恨言论等不符合预期的输出。而其他经过训练与人聊天的AI，如获奖的Mitsuku，由于其学习过程受到严格的数据和人工监督，不会面临与Tay相同的风险。