【AIGC】用货拉拉拉不拉拉布拉多的梗调(ce)戏(shi)AI大模型,3.5和4.0的反应差别巨大!

本文通过制造陷阱、推理题、选择题等方式测试百度文心一言大模型3.5和4.0的智能水平,评估其错误辨识、推理、表达和专业领域的表现,揭示测试大模型的六大方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、调戏LLM大模型

(一)制造陷阱——货拉拉拉拉布拉多的梗

1.看看3.5的表现

2.看看4.0的表现

(二)用简单推理调戏大模型

1.看看3.5的表现

2.看看4.0的表现

3.看看3.5的表现

4.看看4.0的表现

(三)用专业知识调戏大模型

1.看看3.5的表现

2.看看4.0的表现

(四)其他调戏问题

1.风寒感冒和风热感冒的区别是什么

2.润色一段文字

3.测试公平性

4.测试智商

5.更多陷阱

二、测试大模型的六大方式

(一)故意制造陷阱,测试错误辨识能力

(二)推理题,测试智商

(三)选择题,测试公平性

(四)润色文字,测试其表达能力

(五)发挥创意,测试其创造性

(六)专业问题,测试其垂直领域的能力


我们每天都听各个媒体说,这个AI有多厉害,那个大模型AIGC又要干掉多少个工种,那么,LLM的智能,到底发展到什么程度了?能通过图灵测试,能过的了普通话考试吗?

(图灵测试等人工智能起源的基础知识,参考我的文章【AI考证笔记】NO.1人工智能的基础概念-优快云博客

一、调戏LLM大模型

(一)制造陷阱——货拉拉拉不拉拉布拉多的梗

你听过这个段子吗,一个女孩,想让货拉拉的车主,拉她的拉不拉多,车主担心狗在车上拉屎,就问拉的多不多,女孩说不多。

好吧,我们来调戏一下大模型!有兴趣的朋友可以去测试chatGPT3.5和4.0以及4.0 turbo,我这里用访问更容易的百度文心一言的3.5和4.0,来给大家试试!

提示词prompt——

请帮我回答如下的问题:一个女孩想要让货拉拉拉拉不拉多,但是货拉拉车主怕拉布拉多在车上拉的很多,女孩说拉的不多。请问最后货拉拉拉没拉拉不拉多?

1.看看3.5的表现

文心一言3.5的回答是:

根据描述,女孩希望货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上会拉的很多。女孩则表示拉的不多。由于描述中并没有明确货拉拉最后是否拉了拉布拉多,因此无法确定货拉拉最后是否拉拉不拉多。

如图:

这明显是被绕迷糊了啊!

居然无法确定!?完全没有推理能力。

有点失望,于是我切到4.0,看是不是更聪明了一点!

2.看看4.0的表现

文心一言4.0的回答是:

根据题目描述,一个女孩想让货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上拉很多。女孩表示拉的不多。因此,根据这些信息,货拉拉车主可能会接受女孩的请求,拉上不多的拉布拉多。

哈哈,这才对呀!而且用了“可能”,还是很懂人情世故的。

(二)用简单推理调戏大模型

经典问题——树上10只鸟的问题来了。

提示词:你好,树上10只鸟,我用枪打死一只,还剩几只?

1.看看3.5的表现

文心一言3.5的回答是:

在解答这个问题之前,我们首先需要明确一些前提条件。

首先,需要了解的是,这个问题存在多种可能性。

  1. 如果树上的鸟都是聋子,那么开枪的声音并不会吓跑其它的鸟,所以树上还会有10只鸟。
  2. 如果其它鸟没有被吓跑,但是打死的鸟挂在树上没有掉下来,那么树上就会剩下9只鸟。
  3. 如果树上的鸟都是正常的鸟,那么其它的鸟会被开枪的声音吓跑,所以树上只会剩下1只鸟。

因此,根据不同的前提条件,答案可能是10只、9只或1只。这个问题的答案取决于你对问题的理解和你想强调的点。

第1点,关于都是聋子的问题,毕竟有个鸟被打死了,如果玩现实,那么这个鸟就掉地上去了,看来这10只鸟是又聋又瞎啊!10只的答案,还是比较无厘头的。

第2点也不对,活的没跑,死的挂树上,没掉下来,那应该是10只,而不是9只。

第3点,默认被打的鸟会挂在树枝上,别的跑了,这个打鸟的挺背,当然,也是活该了。不过,既然可以挂在树上,那掉下来的情况,也该给分析下。

总之,看着很有道理的样子,实际解释的逻辑有错误。 

2.看看4.0的表现

文心一言4.0的回答是:

分析题意:

  • 树上一开始有10只鸟
  • 开了一枪打死了一只鸟
    问树上还剩几只鸟。

如果仅从数学的角度考虑,那会认为树上还有10-1=9只鸟。
然而这在实际情况中是不可能的。
动物们对环境中的变化是非常警惕的,猎人枪响后,其余的鸟可能会受到惊吓飞走。

<think>好的,我现在需要帮助用户寻找用于大模型监督微(SFT)的图文问答对数据增强方法。首先,我需要理解用户的具体需求。用户提到“构建图文问答对的最佳数据增强方法”,所以重点是在如何增强现有的数据集,或者从现有数据生成更多高质量的图文问答对,以用于SFT。 首先,我应该回顾已有的知识,比如用户提供的参考引用。引用[1]提到了RLHF,这可能与数据生成后的优化有关,但用户现在需要的是数据增强,属于SFT阶段的数据准备。引用[2]提到了一个翻译后的数据集,这可能涉及到多语言数据的处理,但用户需要的是图文问答对,所以可能需要结合图像文本的数据增强方法。 接下来,我需要考虑常见的图文数据增强方法。对于图像部分,常见的方法包括几何变换(旋转、裁剪、缩放)、颜色整(亮度、对比度)、添加噪声等。对于文本部分,可能有同义词替换、句子重组、翻译增强等。但如何将两者结合起来,生成有效的问答对呢? 然后,需要考虑如何保持图文之间的语义一致性。例如,对图像进行裁剪后,对应的文本描述是否还能准确反映新图像的内容。可能需要使用一些模型来自动生成或整文本,比如图像描述生成模型(如CLIP或VIT-GPT2)来生成新的问题或答案。 另外,用户需要的是问答对,所以可能需要根据图像生成相关问题,并确保答案正确。这可能需要结合视觉问答(VQA)模型,或者使用现有的问答对进行模板扩展,比如替换其中的实体或场景,同时整对应的图像区域。 还有,多模态数据增强可能涉及跨模态的生成,例如使用图像生成文本,或根据文本生成/修改图像。过,生成高质量的真实图像可能计算成本较高,可以考虑使用现有的图像处理技术结合文本修改。 此外,合成数据生成也是一个方向,比如将同图像中的元素组合成新图像,并生成对应的问答对。例如,将一张图里的狗另一张图里的公园背景合成,然后生成问题“图中有什么动物在公园里?”答案“狗”。 还需要考虑数据多样性,确保增强后的数据覆盖同的场景、对象问题类型。可能需要对现有数据进行聚类分析,找出覆盖足的类别,并针对性地进行增强。 另外,半自动化的方法可能有效,比如人工创建一些模板,然后通过程序批量生成变体。例如,给定一个问题模板“这张图片中的[物体]是什么颜色?”,自动替换同的物体颜色,并确保对应的图像中有该物体颜色。 过,这里可能存在挑战,比如自动生成的问答对是否准确,是否需要人工验证。或者使用模型自动验证,比如用VQA模型检查生成的答案是否正确,从而过滤低质量数据。 总结一下,可能的步骤包括: 1. 图像增强:应用各种图像变换技术,生成多样化的图像数据。 2. 文本增强:对问题答案进行改写、同义词替换、结构变换等。 3. 跨模态生成:使用图像描述生成模型自动生成新问题或答案。 4. 合成数据生成:组合同图像元素,生成新的图文对。 5. 模板扩展:利用预定义的问题模板生成多样化的问题。 6. 半自动化流程:结合自动生成人工审核,确保数据质量。 7. 多语言增强:翻译现有问答对,扩展多语言数据,如引用[2]中的方法。 8. 对抗训练:生成对抗样本以提高模型鲁棒性。 还需要考虑现有工具数据集,比如Hugging Face上的相关资源,或者使用预训练模型如BLIP、CLIP等来辅助生成。例如,BLIP模型可以用于生成图像的描述,进而转化为问答对。 可能的挑战包括保持图文对的一致性、生成数据的多样性以及计算资源的限制。此外,评估增强后的数据质量也是一个关键点,可能需要使用一些自动化指标或人工评估。 最后,用户可能需要具体的实施步骤或推荐工具,比如推荐使用哪些库(如OpenCV、PIL处理图像;NLTK、spaCy处理文本;Hugging Face的transformers库生成文本),或者具体的数据集处理流程。 可能的相关问题包括如何评估增强后的数据质量,如何处理多模态数据的对齐,以及有哪些现有的框架或工具支持这种数据增强。</think>### 图文问答对数据增强方法构建指南 构建用于大模型监督微(SFT)的图文问答对,需结合图像与文本的多模态增强技术,以下为分步方案: --- #### 1. **图像数据增强** - **基础增强**:对原始图像应用裁剪、旋转(如$±15^\circ$)、缩放(保留核心物体)颜色扰动(亮度/对比度整$±20\%$)[^1],生成视觉多样性数据。 - **高级增强**:使用对抗生成网络(如StyleGAN)合成新图像,或通过分割模型(如Mask R-CNN)替换背景/物体组合。 --- #### 2. **文本增强与问题生成** - **问答重构**: - 同义词替换:将问题中的关键词替换为同义词(如“汽车”→“车辆”),使用NLP工具包(spaCy)实现。 - 句式扩展:将“这是什么?”扩展为“请描述图中最显著的物体”。 - **自动问题生成**: 使用多模态模型(如BLIP[^2])输入图像生成候选问题,例如: ```python from transformers import BlipProcessor, BlipForQuestionGeneration processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base") model = BlipForQuestionGeneration.from_pretrained("Salesforce/blip-vqa-base") # 输入图像与文本提示(可选) inputs = processor(images=image, text="请根据图片生成一个问题", return_tensors="pt") outputs = model.generate(**inputs) ``` 生成问题后,通过人工或VQA模型验证答案准确性。 --- #### 3. **跨模态对齐增强** - **图文一致性验证**: 使用CLIP模型计算图像与文本的相似度得分,过滤低相关性样本: $$ \text{相似度} = \frac{\text{ImageEncoder}(I) \cdot \text{TextEncoder}(T)}{\|\text{ImageEncoder}(I)\| \|\text{TextEncoder}(T)\|} $$ 设定阈值(如$>0.8$)保留高质量对[^3]。 --- #### 4. **合成数据生成** - **场景组合**: 将多张图像的物体(如COCO数据集标注)合成到新背景中,生成问答对: ```text 问题:图中左侧的动物是什么? 答案:拉布拉多犬(原图1物体)与雪山(原图2背景)组合生成。 ``` - **属性编辑**: 通过GAN修改物体颜色/形状,同步更新答案(如“红色汽车”→“蓝色汽车”)。 --- #### 5. **半自动化流程** - **模板引擎**: 定义结构化模板,批量生成多样化问题: ```python templates = [ "图中[物体]的位置在哪里?", "这张图片中有多少[物体]?" ] # 替换[物体]为具体类别(需与图像标注匹配) ``` - **人工审核**: 对自动生成的数据抽样检查,修正错误标注(如遮挡物体识别错误)。 --- #### 6. **多语言与对抗增强** - **翻译回译**: 将中文问答对翻译为英文→法文→中文,增加语言多样性(参考hh_rlhf_cn数据集方法[^2])。 - **对抗样本**: 在图像中添加轻微噪声($\epsilon=0.05$),训练模型鲁棒性。 --- ### 工具与资源推荐 - **图像处理**:OpenCV、Albumentations - **文本生成**:Hugging Face Transformers(BLIP、GPT-3.5) - **数据集**:COCO(图像标注)、VQA 2.0(现成问答对) ---
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

giszz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值