如何用初中知识把大部分LLM干掉!

文章探讨了GenerativeAI和LLM在提升技术能力的同时,面临的创新性、情感理解、决策透明度以及对就业和社会公正影响的局限。通过实例分析,显示AI在文学和数学问题上的表现,强调人类智慧在复杂问题中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


Generative AI 与 LLM 真的能替代人类走向未来嘛?

在这里插入图片描述
在技术层面,AI 的生成能力和理解能力确实在不断提升,它们能够处理大量数据,快速做出决策,甚至在某些特定领域超越人类。然而,当我们深入思考,会发现 AI 仍然存在许多局限性。

首先,AI 缺乏人类的创新力和情感理解。尽管 Generative AI 可以生成全新的内容,但这些内容往往是基于已有的数据和模式,难以突破既定的框架。

其次,AI 的决策过程缺乏透明性。与人类不同,AI 无法解释其决策背后的逻辑和原因。这在许多领域引发了伦理问题,例如在法律和医疗领域,决策的正确性关乎人的生命和权益,需要可解释性和透明性。

再者,AI 的快速发展也引发了关于就业和社会公正的问题。随着 AI 和自动化技术的普及,一些重复性和高度程序化的工作可能会被取代。这可能导致一部分人失去工作,加剧社会不平等。因此,在追求技术进步的同时,我们也需要关注如何通过教育、政策等手段来帮助这部分人重新就业,并确保社会的公平和和谐。

下面我们举两个大家都能看明白的例子,看看训练成本上千万的LLM 们能否回答正确!

经典名著解读:《西游记》原著你有没有好好看过?

问题:西游记最令你印象深刻且富有教育意义的是哪一回?给出原文和启示

这个问题隐藏了一个错别字,文心的回答可以说令人惊艳!加入了自己的理解,把白骨精,人参果等章节杂糅了起来,修改了原著内容。
在这里插入图片描述

给予回答错误的反馈,过段时间后,保留错别字再问,涌现如下结果:
在这里插入图片描述
再问一遍,给出基本满意回答:
在这里插入图片描述
阿里千问基本给出满意回答:
在这里插入图片描述

清华ChatGLM基本给出满意回答:
在这里插入图片描述
至此我们发现文科问题,可能由于训练的语料多,基本能回答6-7成以上,到了理工科问题,尤其是数学问题,怎么样呢?
我们拭目以待!


初中数学题:上点强度,先不看答案你多久可以做对?

问题:用数字2,5,6,7,9不重复使用,组成一个三位数和一个两位数,这两个数取什么和什么,乘积最大?

直接用百度文心解题插件,回答非常符合人类直觉,这个百度教育其实收录有这个题目,没有能回答正确,说明压根没学!
在这里插入图片描述

在各种排行榜领先的百川大模型,没有能回答正确
在这里插入图片描述

神奇的阿里千问来了,回答正确,但是问原理,开始胡说,前后矛盾,可见是投了猿辅导,有语料训练过,但是解数学题的能力还是没有训练好。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
ChatGLM3-6B,这个水平有待提高!
在这里插入图片描述

bing Copilot 按理说是背后有GPT4的男人,结果这个逻辑确实混乱不是一星半点,看来还是中文语料少。
在这里插入图片描述

综上,我们来看看到底如何求教,其实这个数学题没那么简单!

为了防止LLM 们迅速理解升级,我就只放这个答案的图片了,聪明的观众朋友们看懂了吗?

在这里插入图片描述


以高考为例的LLM实测水平 :大概最好的学生可以上民办本科,大家可以放心了!

我很好奇目前的LLM 到底对中文理解的能力达到了什么层次呢,GAOKAO-Bench 给了我们答案

  • https://github.com/OpenLMLab/GAOKAO-Bench

只做选择题,满分750 的话,最高分大约考到了 2本线的样子,这可是训练成本百万美刀,光一天电费也要几万美刀的GPT 啊!

在这里插入图片描述

看到这里大家似乎可以放心了,

Generative AI 和 LLM 也许某些方面确实具有巨大的潜力,但它们并不能完全替代人类。

人类的智慧、情感和创新力是无可替代的,而且在处理复杂的带有技巧性的问题时,
如果数据从来没有出现在训练样本中,依然会大概率出现:“胡说八道”的情况。

这种 不可控 也许是未来LLM 需要首要解决的问题!


参考文献与学习路径

LLM 中文评价指标与部分排名:

  • https://github.com/hkust-nlp/ceval
  • https://github.com/haonan-li/CMMLU
  • https://opencompass.org.cn/
  • https://flageval.baai.ac.cn/#/home

如何为大模型补习数学:

  • https://gair-nlp.github.io/MathPile/
  • https://github.com/GAIR-NLP/MathPile
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shiter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值