阿里和微软开发的AI模型在斯坦福阅读测试中胜过人类

阿里和微软的人工智能模型在斯坦福阅读理解测试中超越人类水平。这项测试使用了500多篇维基百科文章作为数据集,评估AI系统的阅读理解能力。微软和阿里巴巴的AI模型以微弱优势胜出,回答的精确匹配度超过人类表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

16日消息,据国外媒体报道,阿里和微软各自开发的AI(人工智能)模型,在日前举行的斯坦福阅读测试中胜过人类。

u=148742821,1049806316&fm=173&s=7D6527C6

在上周进行的测试中,参赛公司让各自的人工智能系统解答斯坦福问答数据集(Stanford Question Answering Dataset)的提问,该数据集评估阅读理解能力。计算机的答案被与普通人的答复进行比较,然后据此排名。

该项测试提出的问题包括:“尼古拉特斯拉(Nikola Tesla)是什么种族的人”,以及“亚马逊雨林有多大?”

斯坦福大学的测试题基于500多篇维基百科文章编制而成,旨在通过这套试题梳理出线索,看机器学习模型是否能够在经过大量信息处理后给出问题的确切答案。

这些题目所构成的试卷被认为是当前世界检测机器阅读水平的最权威标准之一。

微软和阿里巴巴开发的AI模型以微小优势胜出,在回答的精确匹配度上比人类的82.3%高出几个基点。

阿里数据科学研究院的自然语言处理首席科学家Luo Si称,这个胜利是一个里程碑,该技术有很多用途,包括客户服务、博物馆讲解、医疗查询,其中一些在全球范围内已经由聊天机器人(chatbot)处理。

类似的技术已被用于买家提出的常见问题(比如“我的包裹在哪里?”)。在阿里的光棍购物节期间,这类问题会大量涌入。





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值