通俗地说,用于文本和图像生成的 LLM 本质上是绞肉机,它根据您在提示中描述的现有肉类和香料生产出一种新形式的肉。 绞肉过程涉及将原料绞碎很多次,以至于它看起来变成了全新的东西。
LLM 的过度拟合问题
如果 LLM 是在非常小的数据集上进行训练的,并且之前没有任何较大的训练数据,那么您将能够识别出训练它的原始作品的部分内容。对于LLM 的过度拟合问题,一般假设是,这个问题只会出现在小型和特定的数据集上。
Github Copilot 和 GPT 面临的挑战是,它们甚至无法为 20 世纪 80 年代末到 90 年代初的 Macintosh 操作系统(即 Macintosh 系统 5、6 和 7)生成最基本的代码。
随着编程和系统的不断变化,LLM 实际上无法针对特定版本和状态。这与它们的训练数据通常没有历史信息以及 LLM 无法完全将其数据限制在历史的特定时间范围内有关。
这并不是 1947 年美国盟军的交流方式🤦♂️德国盟军占领军的原始信件是训练数据的一部分,但无法将结果缩小到它。
LLM 无法缩小到特定的时间点
LLM 是在现状的指导下进行训练的,重点是尽可能最新的数据,而这已经很难实现。就我而言,Github Copilot 和 GPT-4 会不断提供 Apple StoreKit1 实现代码,而倾向于 iOS 上更简单、更先进的 StoreKit2。他们偏向 StoreKit1,因为 StoreKit1 的训练数据量远远超过 StoreKit2。
这表明,使用非常少和非常大的数据集训练 LLM 都具有挑战性。当 LLM 试图根据他们拥有的训练数据进行概括时,他们往往无法解决非常具体的问题,即使在提供解决方案的数据上进行训练也是如此。问题越小众,提示就需要越具体。具体到它通常需要提示来指导 LLM 在哪些训练数据(即编程文档)中具体寻找。
他们没有能力评估自己的工作
当人类创造作品时,他们能够重新评估自己的作品。这包括检查他们所创造作品的合理性。LLM 试图通过以递归方式回收自己的作品来模仿这种行为。这个回收过程还包括尝试验证自己作品的合理性。然而,这个评估过程受到 LLM 所采取的回收步骤数量的限制。虽然人类需要花费不同的时间才能通过重新迭代提供所需的结果,但 LLM 只是通过步骤数量和时间限制其重新迭代。它在预定义的时间范围内创造出最好的作品。
人类的评估方式与大语言模型不同
埃里克·亚瑟·布莱尔(人称“乔治·奥威尔”)从 1946 年到 1949 年一共花了三年时间写成《1984》。他住在苏格兰西部偏远的朱拉岛上。他花了足够长的时间写这本书,直到他认为这本书适合出版。与乔治·奥威尔等人不同,大语言模型不会一直工作到他们的工作最符合预期结果,而是一直工作到达到处理周期的极限。这可能相当于一个没有动力的工人,无论工作成果的质量如何,他都会在下午 5 点准时下班。