9、自然语言处理:评估、部署、更新与多语言处理

自然语言处理:评估、部署、更新与多语言处理

1. 文本生成评估的挑战

文本生成的评估方案并非完美。这是因为可能存在多个意思相同但表述不同的句子,无法将所有变体都列为真实标签。例如,在机器翻译中,将法语句子 “J’ai mangé trois filberts.” 翻译成英语,真实标签为 “I ate three filberts.”,但模型生成 “I ate three hazelnuts.” 时,自动评估会判定输出错误,然而 “filberts” 和 “hazelnuts” 意思相同。即便添加 “I ate three hazelnuts.” 为可能的标签,模型还可能生成 “I have eaten three hazelnuts”,自动评估仍会判定错误。这时就需要人工评估,但人工评估在时间和金钱上成本较高。

2. 外在评估

外在评估侧重于评估模型在最终目标上的表现。在工业项目中,AI 模型的构建旨在解决业务问题。例如,回归模型用于对用户的电子邮件进行排序,将最重要的邮件排在收件箱顶部,以帮助用户节省时间。如果回归模型在机器学习指标上表现良好,但未能为用户节省大量时间,或者问答模型在内在指标上表现出色,但在生产环境中无法解决大量问题,这样的模型不能被认为是成功的,因为它们未能实现业务目标。

进行外在评估的方法是在项目开始时设定业务指标和正确的测量流程。

我们可能会问,如果外在评估才是关键,为什么还要进行内在评估呢?原因是外在评估通常涉及 AI 团队之外的项目利益相关者,有时甚至包括最终用户,而内在评估主要由 AI 团队自己完成。因此,外在评估比内在评估成本更高,内在评估可作为外在评估的代理。只有当内在评估持续取得良好结果时,才应进行外

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值