先说结论:我做了一个让AI互相辩论的app,成本非常低,但效果一般,缺乏张力,没有那种唇枪舌剑的感觉。不过我觉得如果有时间,在实现机制和提示词上多下点功夫,还是挺有潜力的。既然谷歌的NotebookLM能把AI访谈带火,那辩论是不是也可以看作是一场攻击性更强、参与者更多、规则更清晰的“访谈”呢?
最近我在构思一些简单的CLI Agent入门实践,刚好刷到国产模型更新的新闻,灵机一动,就想着把新版的DeepSeek和GLM拉过来搞一场辩论赛——谁强谁弱,斗一斗就知道了。
本来打算把整个过程录成视频,作为CLI Agent的入门示例。但实际做下来才发现,组织一场辩论赛并不简单,要考虑的细节非常多:流程、组织、逻辑上的攻防等等。从结果来看,最初的目标并没有完全实现,所以这篇文章更像是一份过程报告,希望能博诸君一笑。
开局
起初并没有太系统的进行设计,毕竟只是突然的想法,从想到和执行都没有过20分钟。
初始化了一个window环境,下载ai-launchpad,使用web开发配置安装开发环境
在DeepSeek开发平台和智谱开发平台分别创建apiKey,这个key是用于连接大模型的凭据,也会用来追踪token的用量
打开vscode,新建项目,打开claduecode,开搞,具体做了哪些呢?
创建了CLADUE.md,添加了一句对中文用户友好——这样对话以及产品都会考虑中文用户

写了一个简单的产品需求

产品需求中提到的两个txt文件内容(对接示例对应的平台都有提供,deepseek,glm)


准备工作完成,然后启动claduecode,输入"阅读产品需求,帮我进行具体实现",模式调整成全自动,回车
ai会分析以及列出一个todolist逐步执行,这段空隙我就可以离开去泡个茶了

因为第一版需求很简单,一次通过,交付的是两个AI围绕主题互相触发对话的网页

拉扯
但这个实现还是太简陋了,目前最明显的问题是我并不会每段都看一看,所以需要引入评委系统,那就继续深化需求
ROUND 1
继续向ai提出,我们需要引入评委机制,这样才可以决出胜负
于是ai一段操作,给出了新的答案

这次稍好一些,对每一回合都有点评,最后也会通过技术总分来决定胜负,但这个分值就很令人怀疑
其实到这一步系统已经偏娱乐,不能区分模型强弱了,因为正方用的DeepSeek,反方用的GLM,评委也是GLM,较真的话要控制变量且经过很多轮的对照,才能看出问题
ROUND 2
继续调整,告诉claudecode,我们要使用投票制决定优劣,且每个评委要有独立的提示词,从不同的维度进行点评

加入了更多的评委,但仍难以让人信服,而且缺乏观赏性
ROUND 3
于是我提出让ai重构,采用更严谨的辩论赛规则,引入角色机制,可以通过提示词创建不同的ai,然后将邀请到比赛中
重构后,这一版就开始有点意思,下面是ai自己加入的新特性
更全面的辩论赛角色,包括正方和反方共8位辩手,1个主持人,3个评委
更完善的流程,加入了立论,攻辩,自由辩论,陈词等关键阶段

配置ai,现在可以创建独立的人物,为其配置提示词,大模型,重新测试的时候确实发现辩手们都有各自的倾向性,例如部分ai,就更加偏向用数据证明自己或者攻击对方的论点

邀请,现在可以通过组合不同的人物,来让整场辩论出现更多的可能性

到这一步,虽然网页还是有点简陋,但核心流程基本是完整的,我看了几场辩论,发现还是有些问题
- 主持人太僵硬,没有灵活性和参与度,沦为纯背景
- 选手们的思维不够连续,太片段了,协同性也很差,永远都给人一种根据上一句推下一句的感觉
- 评委的点评也很点状,尤其在自由辩论环节,很容易被最后的对话影响评价,但实际上应该要更加全局
ROUND 4
这个环节的修改是与claude一起讨论完成的,我们一起讨论了解决上面问题的方案,然后我们决定加入记忆系统,以及这个系统的实施方法。最终,每个人物(主持人、辩手、评委)根据不同阶段、会采取不同策略,在比赛过程更新自己的记忆,每次请求的时候因为有记忆内容,所以ai会更加全局且连贯


这轮修改后,辩论效果确实有一定提升,例如在自由辩论阶段,ai甚至会拿出一些攻辩阶段的内容进行攻防。当然,其实目前还是有不少问题。例如:
- 因为加入了更加多的请求,ai的响应过程会更长
- 当上下文非常长的时候,目前没有考虑处理的方案
- 灵活性,现在的选手让我觉得太遵守规则了,我们还是要引入一些机制,让其更有观赏性
- 提示词工程,由于并没有花心思在提示词上,每个"选手"的潜力其实并没有被发掘
- 数据源,应当要提供获取数据源的方法来提高置信度,避免ai胡编乱造
- 表现力,纯文本的表现还是太差了,一场好的辩论赛,逻辑固然重要,但选手的声音、语气、行为、表情等等的表现都是更为精彩的地方,也影响着我们对于最终论点的判断
至此,我停止了对项目的修改,这次的测试作为浅尝已经结束了。我能想到很多有意思的结合,例如结合TTS直接变成语音辩论,甚至结合数字人和ai视频技术让其变成完整的辩论节目,又或者直接接入各大主流信息媒体,只要出现了社会性的热点就自动进行辩论节目的内容生产等等...
但不管怎么往后拓展,这个项目都要进行更加系统的设计以及技术上更加全面的重构。这值得重新再开一个篇章...
但还是想感叹一句,ai时代只要敢想,很多事还真能做。这次实践没有完整记录时间,但从安装环境到完成第一版花了大概20分钟,后面拉扯和测试的时间断断续续估计加起来有两个小时,api费用16块(Deepseek-0.5,GLM-15.5)(????大大的问号,估计大量的记忆操作都是glm做的,但价格差这么多我属实没想到)。
如果是以前,要做到同样程度,一星期不知道能不能打住(而且还要假设我所有知识都是熟悉的)。目前如果是类似这种简单的文字型战报,史上最强辩论赛,王沪宁金墉李显龙悉数登场,我们的青葱岁月! 对系统以及ai提示词再做几轮调整,再写个澎湃新闻的抓取来获得一些论点,我都能直接上自动化了。
写在最后
- CLI Agent到来会激发更加多的产品。以前做很多事会瞻前顾后,因为无法测量沉没成本,现在可以快速验证,快速迭代。此路不通,那就换一个方向继续跑。当失败的成本变得足够低,到达成功缺的就是想法以及行动罢了。

被折叠的 条评论
为什么被折叠?



