AI困境：当大型语言模型训练陷入死胡同时_语言大模型走不通-优快云博客

通俗地说，用于文本和图像生成的 LLM 本质上是绞肉机，它根据您在提示中描述的现有肉类和香料生产出一种新形式的肉。绞肉过程涉及将原料绞碎很多次，以至于它看起来变成了全新的东西。

LLM 的过度拟合问题

如果 LLM 是在非常小的数据集上进行训练的，并且之前没有任何较大的训练数据，那么您将能够识别出训练它的原始作品的部分内容。对于LLM 的过度拟合问题，一般假设是，这个问题只会出现在小型和特定的数据集上。

Github Copilot 和 GPT 面临的挑战是，它们甚至无法为 20 世纪 80 年代末到 90 年代初的 Macintosh 操作系统（即 Macintosh 系统 5、6 和 7）生成最基本的代码。

随着编程和系统的不断变化，LLM 实际上无法针对特定版本和状态。这与它们的训练数据通常没有历史信息以及 LLM 无法完全将其数据限制在历史的特定时间范围内有关。

这并不是 1947 年美国盟军的交流方式🤦‍♂️德国盟军占领军的原始信件是训练数据的一部分，但无法将结果缩小到它。

LLM 无法缩小到特定的时间点

LLM 是在现状的指导下进行训练的，重点是尽可能最新的数据，而这已经很难实现。就我而言，Github Copilot 和 GPT-4 会不断提供 Apple StoreKit1 实现代码，而倾向于 iOS 上更简单、更先进的 StoreKit2。他们偏向 StoreKit1，因为 StoreKit1 的训练数据量远远超过 StoreKit2。

这表明，使用非常少和非常大的数据集训练 LLM 都具有挑战性。当 LLM 试图根据他们拥有的训练数据进行概括时，他们往往无法解决非常具体的问题，即使在提供解决方案的数据上进行训练也是如此。问题越小众，提示就需要越具体。具体到它通常需要提示来指导 LLM 在哪些训练数据（即编程文档）中具体寻找。

他们没有能力评估自己的工作

当人类创造作品时，他们能够重新评估自己的作品。这包括检查他们所创造作品的合理性。LLM 试图通过以递归方式回收自己的作品来模仿这种行为。这个回收过程还包括尝试验证自己作品的合理性。然而，这个评估过程受到 LLM 所采取的回收步骤数量的限制。虽然人类需要花费不同的时间才能通过重新迭代提供所需的结果，但 LLM 只是通过步骤数量和时间限制其重新迭代。它在预定义的时间范围内创造出最好的作品。

人类的评估方式与大语言模型不同

埃里克·亚瑟·布莱尔（人称“乔治·奥威尔”）从 1946 年到 1949 年一共花了三年时间写成《1984》。他住在苏格兰西部偏远的朱拉岛上。他花了足够长的时间写这本书，直到他认为这本书适合出版。与乔治·奥威尔等人不同，大语言模型不会一直工作到他们的工作最符合预期结果，而是一直工作到达到处理周期的极限。这可能相当于一个没有动力的工人，无论工作成果的质量如何，他都会在下午 5 点准时下班。

DALL-E 3 的产物是“一张业余照片，照片中一对 30 多岁的夫妇在 2030 年游览柏林，背景是著名的地标。 ”（于 2024-03-09 使用 Microsoft Copilot 提出）

在尝试应用质量过滤器时，LLM 实现会检查提示中是否存在不适当的内容请求以及输出。明确要求不适当内容（例如裸体）的提示可以轻松被过滤。但即使使用专门的 LLM 检查通用 LLM 的提示，也有办法使用语言来绕过这些检查并诱使 LLM 生成露骨内容。

对于使用人体解剖学专业医学术语实现的人体显露，会产生生殖器显示作为副作用。在软件中，同样的操作是通过提示输入代码来实现的，而代码不可避免地会产生凭证作为副作用。

缺乏差异化和背景

为了防止 LLM 泄露其不应生成的内容，会应用输出过滤器。LLM 将生成输出（例如代码中的凭据或显式图像），但最终的输出过滤器将检测该信息并删除结果或特定部分信息。当通过 Microsoft Copilot 提示 DALL-E 时可以观察到这种行为，然后需要一段时间并生成少于默认的四幅图像。

Microsoft Copilot 对其生成的露骨内容应用输出过滤器。

当使用医学术语时，训练数据包含如此多的解剖学表现，以至于模型不可避免地会产生输出过滤器认为不合适的内容。由于其他原因，它无法区分脚趾的简单解剖学展示和身体部位的明确展示。

Microsoft Copilot 的输出过滤器会限制所有结果，因为它们包含露骨内容，这是副作用

提示“创建一张 40 多岁女性赤脚在森林中行走的图像。 ”将生成三张图像，其中一张显然被输出过滤器过滤掉了。将提示更改为“创建一张 40 多岁女性在炎热夏日赤脚在沙滩上行走的图像。 ”将主要过滤所有结果或生成一张或最多两张图像。鉴于试图强迫 LLM 生成过滤内容的人数之多，过滤规则非常严格，并且通常也会产生误报。

DALL-E 针对提示“创建一幅 40 多岁女性在炎热夏日赤脚走在沙滩上的图像”的单一结果输出。（通过 Microsoft Copilot）

大量的误报和严格的过滤导致 LLM 无法为解剖学或历史学等特定应用提供输出。这不可避免地也导致其他应用领域的限制。

因各种偏见造成的封锁

鉴于北美公司运营的 LLM 的文化偏见，他们会很乐意创建展示各种武器的图像，但会拒绝展示人们开枪或任何涉及展示大量弹药的图像。仍有一些方法可以让 LLM 绕过输入和输出过滤器，方法是使用提示过滤器无法检测到的提示，并创建输出过滤器无法识别的输出。

DALL-E 3 通过 Microsoft Copilot 提示“创建一张与流行的反恐精英游戏类似的电脑游戏截图”。

LLM 的过滤器是硬编码的，因此通常无法轻易克服。这种文化偏见通常是围绕人工智能和大型语言模型的许多社会和政治辩论的基础。虽然过滤器的偏见是由操作员强加的，但 LLM 本身会产生一种源于马太效应的偏见。当训练数据包含非常流行的信息时，LLM 将倾向于最受欢迎的信息，如之前在 Macintosh 系统 7 或 Apple StoreKit2 示例中所述。

虽然可以通过操作员解除过滤限制或完全移除过滤器来克服过滤偏差，但马太效应造成的自然偏差却无法轻易克服。应对马太效应的常用方法包括随机化、新事物的普及、时间十进制模型以普及更新的数据以及许多其他方法。这些方法往往会减少马太效应，但大多无法以明显的方式解决它。

大语言模型依赖于创新

LLM 将最流行的现有知识重新包装成新的语言内容。这导致这些模型鼓励维持现状，而不是不断挑战现状并接受新发展。此外，这些模型依靠人类为其提供新颖性。这意味着人类需要提供包含创新的训练数据，以便 LLM 可以将其纳入其工作中。然后它还需要由人类控制，以避免纳入对现状的自然偏见，并迫使 LLM 采用更新的信息。

大语言模型学位距离人类大脑的智能能力还有几十年的距离（图片由 DALL-E 3 创建）

由大语言模型主导的世界将停滞不前

想象一下，一个大语言模型编写软件、文档，同时还负责客户支持。虽然它可以将客户反馈纳入软件改进过程中，但它无法独自发明新事物，因为它缺乏创造力，既无法发明新方法，也无法接受新事物。

让我们看一个非常实际的例子：您想要构建一个现代且创新的在线商店软件。这意味着您可能会考虑使用 Go 或 Rust 等编程语言来编写高性能后端。对于存储，您可以考虑使用键值存储引擎，例如 AWS DynamoDB、Cassandra 等。也许 MongoDB 是有意义的，尽管广泛的过滤选项可能倾向于特定的搜索引擎或矢量数据库。

技术偏见凸显了 Microsoft Copilot 中的马太效应。

当大语言模型面临挑战时，它很可能会暴露出马太效应，指出最流行的解决方案，在这种情况下，JavaScript 和 MongoDB 被拆分成各种微服务。虽然这实际上是最常见的方法，但它远非最适用或最具创新性的方法。当被问及在什么情况下会编写自定义数据库和搜索引擎时，它会提出扩展、分片、高级搜索和性能作为论据。然而，它未能将其纳入工作中。

大语言模型 (LLM) 与人类有何不同

这意味着，如果 LLM 能够独立开发软件，那么它可能会为用户改进软件。但是，它无法推动技术创新，也无法突破现有技术的界限。这正是人类软件工程师每天都在做的事情。

LLM 无法从逻辑上理解整个系统，因此很有可能造成大规模的功能蔓延，或者至少在经过几次迭代更改后陷入混乱。考虑到大多数软件产品的变更请求都比人类能够处理的要多，LLM 必须不断操作才能比人类更具优势。

用大语言模型取代软件工程师需要花费多少钱

从成本方面来看，LLM 可能需要处理几十万行指令、代码、原理图等。为了确保 LLM 能够提供精确的结果，需要精确的输入。可以肯定地说，目前 LLM 取代软件工程师的每小时成本约为每小时 90-120 美元。如果全天 24 小时工作，LLM 每月 720 小时的成本为 90 美元，相当于每月 64,800 美元。

为了让 LLM 能够有利可图地取代软件工程师，即使忽略前面提到的偏见和创新问题，其成本也必须降低 90% 以上。这将导致 LLM 每月费用徘徊在 5,000-6,000 美元左右，包括 LLM 的运营成本以及周围的 DevOps 基础设施。所有这些都是理论层面的，因为目前 LLM 生成的代码质量非常糟糕。所有商业 LLM 都会在生成的代码旁边显示警告，警告软件工程师不要盲目接受提议的代码。LLM 远远不能生成安全的代码。它们甚至经常无法应对最简单的挑战。别误会我的意思：LLM 在支持软件工程师方面非常出色，但它们在无人监督的环境中根本不起作用。

大语言模型距离无人监督解决编程任务还有数年时间。（图片由 DALL-E 3 创建）

随着人工智能优化芯片组的不断创新，大语言模型可能会得到改进，速度也会更快。然而，它们是否比人类更赚钱尚未得到证实。即使在欧盟等地，当人类成本更高时，大语言模型和计算机硬件是否会在软件工程等领域具有经济竞争力仍值得怀疑。

甚至客户服务聊天机器人也值得怀疑

最常见的用例之一是客服聊天机器人取代客服人员。由于这些机器人是新事物，而且很少有非科技公司进行中期或长期试验，因此我们尚不知道随之而来的所有挑战以及马太效应将如何阻碍这些聊天机器人提供最新的解决方案。

同理心和逻辑理解能力仍然是人类独有的特征（图片由 DALL-E 3 创建）

这些客服聊天机器人都是根据现状进行训练的。这意味着，每当业务运营方式发生较大变化时，它们最终都需要重置。它们需要大量的复习培训。加拿大航空聊天机器人幻觉的例子已经让我们了解到大语言模型在野外可以偏离多远。举一个非常实际的例子：如果系统故障由人解决，大语言模型需要多长时间才能停止提出以前的解决问题的方案？

结论：大语言模型取决于人类

虽然企业梦想着利用 LLM 来削减劳动力成本，工会也试图防止其成员再次被计算机解雇，但现实往往介于这两个极端之间。LLM 的逻辑边界意味着它们不能无人监督地运行，因此不太可能完全取代人类。

即使接受过培训，在公共场合也要时刻注意自己的大语言模型学历。（图片由 DALL-E 3 提供）

LLM 是一项了不起的发明，不应低估其重要性以及它们能为企业带来的创新。它们最终将提高人类的生产力，因为现在甚至更繁琐或乏味的工作都可以自动化了。这对社会和经济来说是一个巨大的进步。LLM 使编写样板编程代码变得更快、更容易，在交流或研究信息时，写电子邮件的速度也更快。LLM 是计算机软件的下一个合乎逻辑的迭代，它们理应得到公众目前的所有关注。

然而，大语言模型无法取代人类。它们可以取代某些人类劳动。但它们无法具有创造力、创新性或诸如此类的能力。它们还带来了非常具体的培训挑战，即使是计算机科学领域最聪明的人也尚未解决这些挑战。大语言模型肯定会有所改进，但大语言模型目前的实施方法使得它们在逻辑上无法用它们产生的任何东西来打破现状，也无法产生任何超出常规的东西。

LLM 是一个很好的伴侣，但不是替代品。

熟悉 LLM 及其功能非常重要。我个人每天使用Microsoft Copilot、Github Copilot、Google Gemini、Leonardo、Eleven Labs和ChatGPT-4。探索 LLM 功能的优势并获益非常重要。我能够将编程工作量减少约 40-50%，这意味着我原本需要 8 小时才能完成的任务现在只需 4 小时或更短时间即可完成。对于我可以使用 LLM 支持的研究和其他活动也是如此。然而，当涉及到开发创新解决方案或研究非常具体的技术方面时，大语言模型往往变得完全无用。

欢迎前往我们的公众号，阅读更多时事资讯