想象一下,你坐在咖啡馆里,手边是一杯香浓的拿铁,而你的旁边,是一个能够理解你、帮助你创作文章的智能伙伴——AI。这不是科幻小说,而是我们正步入的现实。今天,我们就来聊聊如何让这个智能伙伴成为你写作上的得力助手。
(以下内容均来源于个人思考和理解,可能存在错误或片面理解的地方,请审慎阅读。)
目前市面上涌现了大量好用的基于大语言模型开发的AI应用,如chatgpt、kimi等,他们背后使用的技术你了解多少呢?想要用好AI,我们需要先对AI有一定的认知,了解它的基本逻辑和原理。
01
何为大模型?
大模型技术是基于深度学习的一种技术,其核心在于使用大量的数据和计算资源来训练具有大量参数的神经网络模型。这种模型通常具有亿到千亿级别的参数,使其具有较强的拟合能力,能够学习更复杂的特征和规律。
上面这段话是对大模型的概括总结,里面涉及到几个关键点:“深度学习、大量的数据和参数、神经网络模型”。我们可以通过理解这几个关键要素初步认识大模型。
02
什么是深度学习?
在了解这个问题之前,我们可以先思考一个问题:人为什么有分析理解问题,解决问题的能力?
答案其实很简单,因为我们从小到大一直都在学习,我们从书本上学习知识,进行各种实验,甚至现在你在看这篇文章,都是在学习。通过不断的学习,积累知识, 从而让我们具备了分析理解问题、解决问题的能力。既然人能够通过学习具备这样的能力,那机器(计算机)可以吗?答案是肯定的。
早在20世纪50年代,当时的一些计算机科学家和数学家开始探索如何让计算机如何像人类一样具有学习和适应的能力,从而具备解决某些问题的能力。计算机先驱艾伦 · 图灵在当时就提出大脑是一个没有组织、通过权重随机连接的二元神经网络,图灵认为机器获取智能的最佳途径就是模仿人类大脑,这就是深度学习最早的概念。但一直以来,受限于数据集数量较小,算力也远不如现在这么强大,深度学习其实一直没有什么实际上的进展。
直到 2006 年,Hinton 发表了一篇 “深度信念网络的快速学习算法(A fast learning algorithm for deep belief nets )之后,深度学习才开始快速发展起来。之后,Hinton 在 2012 NIPS 上发表的论文又提出了 AlexNet 模型,在图片识别上取得了重大突破,他多年研究工作的重要性才被整个工业界认可。
在大模型崛起之前,针对某些特定场景,通过不断投喂数据进行模型训练,从而让AI具备解决特定场景下问题的能力,如车牌号识别等。直到最近这两年,得益于算力的进一步提升,基于互联网积累的大量的数据,市场上涌现了一大批好用的通用大模型,典型的如chatgpt、claude、kimi等。<