CLI Agent研究笔记——无聊时无妨看看AI打嘴炮-优快云博客

先说结论：我做了一个让AI互相辩论的app，成本非常低，但效果一般，缺乏张力，没有那种唇枪舌剑的感觉。不过我觉得如果有时间，在实现机制和提示词上多下点功夫，还是挺有潜力的。既然谷歌的NotebookLM能把AI访谈带火，那辩论是不是也可以看作是一场攻击性更强、参与者更多、规则更清晰的“访谈”呢？

最近我在构思一些简单的CLI Agent入门实践，刚好刷到国产模型更新的新闻，灵机一动，就想着把新版的DeepSeek和GLM拉过来搞一场辩论赛——谁强谁弱，斗一斗就知道了。

本来打算把整个过程录成视频，作为CLI Agent的入门示例。但实际做下来才发现，组织一场辩论赛并不简单，要考虑的细节非常多：流程、组织、逻辑上的攻防等等。从结果来看，最初的目标并没有完全实现，所以这篇文章更像是一份过程报告，希望能博诸君一笑。

开局

起初并没有太系统的进行设计，毕竟只是突然的想法，从想到和执行都没有过20分钟。

初始化了一个window环境，下载ai-launchpad，使用web开发配置安装开发环境

在DeepSeek开发平台和智谱开发平台分别创建apiKey，这个key是用于连接大模型的凭据，也会用来追踪token的用量

打开vscode，新建项目，打开claduecode，开搞，具体做了哪些呢？

创建了CLADUE.md，添加了一句对中文用户友好——这样对话以及产品都会考虑中文用户

写了一个简单的产品需求

产品需求中提到的两个txt文件内容（对接示例对应的平台都有提供，deepseek，glm）

准备工作完成，然后启动claduecode，输入"阅读产品需求，帮我进行具体实现"，模式调整成全自动，回车

ai会分析以及列出一个todolist逐步执行，这段空隙我就可以离开去泡个茶了

因为第一版需求很简单，一次通过，交付的是两个AI围绕主题互相触发对话的网页

拉扯

但这个实现还是太简陋了，目前最明显的问题是我并不会每段都看一看，所以需要引入评委系统，那就继续深化需求

ROUND 1

继续向ai提出，我们需要引入评委机制，这样才可以决出胜负

于是ai一段操作，给出了新的答案

这次稍好一些，对每一回合都有点评，最后也会通过技术总分来决定胜负，但这个分值就很令人怀疑

其实到这一步系统已经偏娱乐，不能区分模型强弱了，因为正方用的DeepSeek，反方用的GLM，评委也是GLM，较真的话要控制变量且经过很多轮的对照，才能看出问题

ROUND 2

继续调整，告诉claudecode，我们要使用投票制决定优劣，且每个评委要有独立的提示词，从不同的维度进行点评

加入了更多的评委，但仍难以让人信服，而且缺乏观赏性

ROUND 3

于是我提出让ai重构，采用更严谨的辩论赛规则，引入角色机制，可以通过提示词创建不同的ai，然后将邀请到比赛中

重构后，这一版就开始有点意思，下面是ai自己加入的新特性

更全面的辩论赛角色，包括正方和反方共8位辩手，1个主持人，3个评委

更完善的流程，加入了立论，攻辩，自由辩论，陈词等关键阶段

配置ai，现在可以创建独立的人物，为其配置提示词，大模型，重新测试的时候确实发现辩手们都有各自的倾向性，例如部分ai，就更加偏向用数据证明自己或者攻击对方的论点

邀请，现在可以通过组合不同的人物，来让整场辩论出现更多的可能性

到这一步，虽然网页还是有点简陋，但核心流程基本是完整的，我看了几场辩论，发现还是有些问题

主持人太僵硬，没有灵活性和参与度，沦为纯背景

选手们的思维不够连续，太片段了，协同性也很差，永远都给人一种根据上一句推下一句的感觉

评委的点评也很点状，尤其在自由辩论环节，很容易被最后的对话影响评价，但实际上应该要更加全局

ROUND 4

这个环节的修改是与claude一起讨论完成的，我们一起讨论了解决上面问题的方案，然后我们决定加入记忆系统，以及这个系统的实施方法。最终，每个人物（主持人、辩手、评委）根据不同阶段、会采取不同策略，在比赛过程更新自己的记忆，每次请求的时候因为有记忆内容，所以ai会更加全局且连贯

这轮修改后，辩论效果确实有一定提升，例如在自由辩论阶段，ai甚至会拿出一些攻辩阶段的内容进行攻防。当然，其实目前还是有不少问题。例如：

因为加入了更加多的请求，ai的响应过程会更长

当上下文非常长的时候，目前没有考虑处理的方案

灵活性，现在的选手让我觉得太遵守规则了，我们还是要引入一些机制，让其更有观赏性

提示词工程，由于并没有花心思在提示词上，每个"选手"的潜力其实并没有被发掘

数据源，应当要提供获取数据源的方法来提高置信度，避免ai胡编乱造

表现力，纯文本的表现还是太差了，一场好的辩论赛，逻辑固然重要，但选手的声音、语气、行为、表情等等的表现都是更为精彩的地方，也影响着我们对于最终论点的判断

至此，我停止了对项目的修改，这次的测试作为浅尝已经结束了。我能想到很多有意思的结合，例如结合TTS直接变成语音辩论，甚至结合数字人和ai视频技术让其变成完整的辩论节目，又或者直接接入各大主流信息媒体，只要出现了社会性的热点就自动进行辩论节目的内容生产等等...

但不管怎么往后拓展，这个项目都要进行更加系统的设计以及技术上更加全面的重构。这值得重新再开一个篇章...

但还是想感叹一句，ai时代只要敢想，很多事还真能做。这次实践没有完整记录时间，但从安装环境到完成第一版花了大概20分钟，后面拉扯和测试的时间断断续续估计加起来有两个小时，api费用16块（Deepseek-0.5，GLM-15.5）(????大大的问号，估计大量的记忆操作都是glm做的，但价格差这么多我属实没想到)。

如果是以前，要做到同样程度，一星期不知道能不能打住（而且还要假设我所有知识都是熟悉的）。目前如果是类似这种简单的文字型战报，史上最强辩论赛，王沪宁金墉李显龙悉数登场，我们的青葱岁月！对系统以及ai提示词再做几轮调整，再写个澎湃新闻的抓取来获得一些论点，我都能直接上自动化了。