意见征集,世界AI智商评测量标准2018年新版讨论方案

未来智能实验室启动2018年世界AI智商评测,旨在评测全球人工智能系统的智能发展水平。该评测基于标准智能模型,从知识获取、掌握、创新及反馈四个维度综合评价AI的智力水平。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来源:未来智能实验室


对于本次2018年世界AI智商评测的量表更新 ,有两个问题希望得到您的意见:1.如果按上述智力因素进行增加,您认为他们的权重应该是多少,其他已有的智力因素权重应该调整为多少;2.您认为考察智能的发展水平,还应该有哪些智力因素值得考察。或者您对于测试AI与人的智商并进行对比,关于我们建立的标准智能模型,您有什么更好的建议。对于优秀的参与者,将获得未来智能实验室的奖励,并邀请参加2018年AI智商评测专家研讨活动。


2017年11月20日,未来智能实验室(FutureAILab)启动2018年世界AI智商评测活动(WorldAI IQ Test 2018),对世界范围人工智能系统智能发展水平进行新的评测。以观察世界范围内人工智能最新发展水平以及与人类的差距。这也是第三次世界AI智商评测。


一、人工智能智商评测的困难所在


我们知道,人工智能定量评测目前面临两个重要挑战:第一,人工智能系统目前没有形成统一的模型;第二,人工智能系统与以人类为代表的生命体之间目前没有形成统一的模型。


而这两个挑战都指向了同一个问题,即对于所有的人工智能系统和所有生命体(特别是以人类为代表的生命体)需要有一个统一的模型进行描述,只有这样才能在这个模型上建立智力测量方法并进行测试,从而形成统一的、可进行相互比较的智力发展水平评价结果。


从1950年图灵测试提出以来,科学家已经为人工智能发展的评价体系做了很多工作。


1950年,图灵提出了著名的图灵实验,采用提问和人类裁判的方法,判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法,但图灵测试并不检验Ai的智能发展水平,只是判断智能系统能否与人类智能相同,而且受人为因素干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试,


2015年3月24日“美国科学院院刊(PNAS)发表一篇论文,提出一种新的图灵测试方法“Visual Turing test” ,这种测试方法用来对计算机的图像认知能力进行更为深入的评估。


2014年美国佐治亚技术学院的瑞德教授(Mark O. Riedl)认为,智能的本质在于创造力。他设计了一个叫做Lovelace 2.0 版本的测试。Lovelace 2.0 的测试范围包括:创作有虚拟故事的小说、诗歌创作、油画和音乐等。


在解决人工智能定量测试的问题上,包括图灵测试在内的各种方案,还存在无法定量分析人工智能,或者只定量分析智能的某个方面的问题,但这个系统究竟达到人类智慧的百分之多少,发展速度与人类智慧发展速度比率如何,这些问题在上述研究中没有涉及。


二,未来智能实验室的研究-标准智能模型


从2014年开始,未来智能实验室研究团队,参考冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW(Data, Information, Knowledge, Wisdom,数据、信息、知识、智慧)模型体系等。分别在2014年和2015年发表论文提出建立“标准智能模型”,统一描述人工智能系统和人类的特征和属性。


其中,冯·诺伊曼结构给我们的启发是:标准智能系统模型应包含输入/输出系统,能够从外界获取信息,能够将内部产生的结果反馈给外部世界。只有这样,标准智能系统才能成为“活”的系统。



戴维·韦克斯勒关于人类智能的定义给我们的启发是:智力能力由多个要素组成,而非图灵测试或视觉图灵测试那样只关注智力能力的一个方面。



DIKW模型体系给我们的启发是:智慧是一种解决问题、积累知识的能力;而知识是人类不断与外界交互后沉淀下来结构化的数据和信息。一个智能系统不仅仅要掌握知识,更重要的是还要有解决问题的创新能力。


这种对知识的掌握能力、解决问题的创新能力与戴维·韦克斯勒理论、冯·诺伊曼架构相结合,就可以形成智能系统智力能力的多层次结构“标准智能模型”


三,根据标准智能模型建立的第一版人工智能智商测试量表


研究团队根据标准智能系统模型的特征要点,从知识的获取能力(观察能力)、知识掌握能力、知识创新能力,知识的反馈能力(表达能力)等四大方面建立AI智商评价体系,并从这四个方面建立15个分测试,形成人工智能智商测试量表,具体介绍如下:



在2014年,对世界50个AI系统和3个不同年龄段人类进了测试。2016年2月,研究团队开展了“2016年人工智能系统的智商测试”,对包括谷歌、百度、搜狗、苹果Siri、微软小冰在内的人工智能系统进行了测试,从测试结果看,谷歌、百度等人工智能系统的性能比两年前已有大幅提高,但仍与6岁儿童有一定差距。



相关研究方法和测试结论发表在IJIT & DM、Annals of Data Science、中国计算机学报等SCI、EI,中国核心期刊上,这一研究成果受到了美国著名财经媒体CNBC,麻省理工科技评论,ZDNET,YAhoo等美国,德国、日本、意大利、英国、法国、俄罗斯、新加坡、台湾地区和中国大陆媒体的报道。


四。世界AI智商评测量表2018年新版讨论方案


从最近几年对人工智能的发展和对关于智能的最新研究。未来智能实验室将对AI智商评测量表从测试分类和分类权重进行调整,主要调整的内容包括红色代表修改和更新的指标项



电动汽车数据集:20253K+记录 真实电动汽车数据:特斯拉、宝马、日产车型,含2025电池规格和销售数据 关于数据集 电动汽车数据集 这个合成数据集包含许多品牌和份的电动汽车和插电式车型的记录,捕捉技术规格、性能、定价、制造来源、销售和安全相关属性。每一行代表由vehicle_ID标识的唯一车辆列表。 关键特性 覆盖范围:全球制造商和车型组合,包括纯电动汽车和插电式混合动力汽车。 范围:电池化学成分、容、续航里程、充电标准和速度、价格、产地、自主水平、排放、安全等级、销售和保修。 时间跨度:模型跨度多(包括传统和即将推出的)。 数据质说明: 某些行可能缺少某些字段(空白)。 几个分类字段包含不同的、特定于供应商的值(例如,Charging_Type、Battery_Type)。 各列中的单位混合在一起;注意kWh、km、hr、USD、g/km和额定值。 列 列类型描述示例 Vehicle_ID整数每个车辆记录的唯一标识符。1 制造商分类汽车品牌或OEM。特斯拉 型号类别特定型号名称/变体。型号Y 与记录关联的份整数模型。2024 电池_类型分类使用的电池化学/技术。磷酸铁锂 Battery_Capacity_kWh浮充电池标称容,单位为千瓦时。75.0 Range_km整数表示充满电后的行驶里程(公里)。505 充电类型主要充电接口或功能。CCS、NACS、CHAdeMO、DCFC、V2G、V2H、V2L Charge_Time_hr浮动充电的大致时间(小时),上下文因充电方法而异。7.5 价格_USD浮动参考车辆价格(美元).85000.00 颜色类别主要外观颜色或饰面。午夜黑 制造国_制造类别车辆制造/组装的国家。美国 Autonomous_Level浮点自动化能力级别(例如0-5),可能包括子级别的小
内容概要:本文详细介绍了IEEE论文《Predefined-Time Sensorless Admittance Tracking Control for Teleoperation Systems With Error Constraint and Personalized Compliant Performance》的复现与分析。论文提出了一种预定义时间的无传感器导纳跟踪控制方案,适用于存在模型不确定性的遥操作系统。该方案通过具有可调刚度参数的导纳结构和预定义时间观测器(PTO),结合非奇异预定义时间终端滑模流形和预定义时间性能函数,实现了快速准确的导纳轨迹跟踪,并确保误差约束。文中详细展示了系统参数定义、EMG信号处理、预定义时间观测器、预定义时间控制器、可调刚度导纳模型及主仿真系统的代码实现。此外,还增加了动态刚度调节器、改进的广义动观测器和安全约束模块,以增强系统的鲁棒性和安全性。 适合人群:具备一定自动化控制理论基础和编程能力的研究人员、工程师,尤其是从事机器人遥操作、人机交互等领域工作的专业人士。 使用场景及目标:①理解预定义时间控制理论及其在遥操作系统中的应用;②掌握无传感器力观测技术,减少系统复杂度;③学习如何利用肌电信号实现个性化顺应性能调整;④探索如何在保证误差约束的前提下提高系统的响应速度和精度。 阅读建议:本文内容涉及较多的数学推导和技术细节,建议读者先熟悉基本的控制理论和Python编程,重点理解各个模块的功能和相互关系。同时,可以通过运行提供的代码示例,加深对理论概念的理解,并根据自身需求调整参数进行实验验证。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值