
大模型
文章平均质量分 94
源码数据
这个作者很懒,什么都没留下…
展开
-
Llama进化史
总之,Llama模型的发布不仅证明了开源模型在全球AI领域的重要性,也为AI的未来发展方向提供了新的视角和动力。通过持续的技术进步和社区驱动的创新,Llama有望继续推动全球AI技术的广泛应用和发展。参考文献。原创 2025-03-12 07:45:00 · 884 阅读 · 0 评论 -
大模型基础-深度解析-基于大模型的智能体(Agent)
在科技发展的历史中,人类一直期望追求智能化的实现,由此的幻想早已先行,有《机器人总动员》中的瓦力,有《终结者》中的T-800,也有《最后的问题》中的「模」,人们试图打造一种可以自主完成预设目标的代理或实体,即智能体 (AI Agents 或 Agents),以协助人类完成各种各样繁琐的任务。多年来,智能体作为人工智能一个活跃的应用领域吸引人们不断地研究探索。如今,大语言模型正蓬勃发展,日新月异。原创 2025-03-12 10:45:00 · 731 阅读 · 0 评论 -
大模型基础-深度解析-环境影响
环境影响是一个巨大的话题。一切都是相互联系的,所以很难得出一个干净的定量指标。但要真正着眼于全局。尽管如今大语言模型的还很少,但它正在快速增长。大语言模型的通用性提供了节省成本的潜力(“一次性训练”并适用于许多不同的任务)。但它们的成本要高得多,需要可能需要重新训练。这里的权衡是什么?缓解措施尝试在使用清洁能源的数据中心训练模型碳抵消的效果各不相同(森林种植活动产生单一种植)更高效的模型架构、训练程序、硬件(但要注意反弹效应)在论文报告排放量。原创 2025-03-12 09:30:00 · 701 阅读 · 0 评论 -
大模型基础-深度解析-大模型法律
在我们训练大型语言模型时,我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质,你必须诉诸公平使用(从每个人那里获得许可证将非常困难)。模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。在什么水平上进行调控(语言模型还是下游应用)是有意义的?这个领域正在迅速发展,需要深入的法律和人工智能专业知识才能做出明智的决定!原创 2025-03-11 08:00:00 · 1504 阅读 · 0 评论 -
大模型基础-深度解析-大模型的有害性(下)
有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。然而,在我们深入讨论之前,需要指出的是,语言模型与这些伤害之间存在一种断裂。语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式。然而,这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着我们需要从更广泛的社会背景来考虑其危害性,而不是从文本的本身属性角度。在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。原创 2025-03-11 08:15:00 · 1037 阅读 · 0 评论 -
大模型基础-深度解析-大模型的有害性(上)
在这次内容中,我们将开始探讨大型语言模型的有害性(危害)。:我们知道“能力越大责任越大,对于当前开创性的大模型来说,我们需要了解这些模型的能力和危害之间的密切关系。大模型的能力所展示的潜力将导致这些模型被广泛的采用,但是与此同时造成它们的危害。由于AI的发展是近几年发展的产物,因此对于危害的研究与预防依旧是一个很新的事情。因此回顾历史,从过往历史中的其他领域中的危害、安全和伦理问题的防御进行了解,首先考虑一些在具有成熟的危害和安全传统的学科中使用的高层次思想和方法,有助于对当前AI领域有所借鉴。原创 2025-03-10 12:30:00 · 1073 阅读 · 0 评论 -
大模型基础-深度解析-分布式训练
近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为的存在,单一设备的算力及容量,受限于物理定律,持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。原创 2025-03-10 08:45:00 · 619 阅读 · 0 评论 -
大模型基础-深度解析-大模型之Adaptation
探测作为一种强大的分析工具,通过冻结语言模型表示编码器(上图中灰色部分)和优化特定任务的探针(上图中预测头,蓝色部分)来工作。这些模型可以是线性的或浅前馈预测头,提供了一种灵活的方法来理解和解释深度学习模型的内部工作机制。固定长度表示的策略也进一步促进了这一目的,提供了灵活而有效的解决方案。冻结(灰色):无需任何操作。优化(蓝色,每个任务有所不同):语言模型的所有参数,外加一个新的预测头。微调是一种强大的工具,可以使预先训练的语言模型更好地符合人类的期望和需求。原创 2025-03-09 15:00:00 · 992 阅读 · 0 评论 -
大模型基础-深度解析-模型训练
上一章中,我们讨论了大语言模型(例如,Transformer)的模型结构。在本章中,我们将讨论如何训练大语言模型。本章分成目标函数和优化算法两部分。原创 2025-03-09 15:30:00 · 883 阅读 · 0 评论 -
大模型基础-深度解析-大模型的数据
到目前为止,我们已经讨论了大型语言模型的行为(能力和损害)。现在,我们要剥开洋葱的第一层,开始讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据,因此这就是我们开始的地方。附录:通常在机器学习中,训练数据和测试(评估)数据是相似的,或者至少是同一类型的。但对于大型语言模型来说,训练数据就是“原始文本”。原创 2025-03-08 10:15:00 · 1004 阅读 · 0 评论 -
大模型基础-深度解析-新的模型架构
回想一下第3章 模型架构,神经语言模型的核心接口是一个将token序列映射到上下文嵌入的编码器:[the,mouse,ate,the,cheese]ϕ⃗[(10.1),(01),(11),(1−0.1),(0−1)][\text{the}, \text{mouse}, \text{ate}, \text{the}, \text{cheese}] \vec{\phi} \left [\binom{1}{0.1}, \binom{0}{1}, \binom{1}{1}, \binom{1}{-0.1},原创 2025-03-08 12:00:00 · 956 阅读 · 0 评论 -
大模型基础-深度解析-模型架构
为了更好的了解整体的功能结构(而不从一开始就陷入局部的结构细节),我们一开始先将语言模型(model)的看作一个黑箱(black box)(在后续的内容中再逐步的拆解),从形象化的概念理解上来说当前大语言模型(大:体现中模型的规模上)的能力,其可以根据输入需求的语言描述(prompt)生成符合需求的结果(completion),形式可以表达为:prompt⇝modelcompletion or model(prompt)=completionprompt \overset{model}{\leadst原创 2025-03-07 09:45:00 · 737 阅读 · 0 评论 -
大模型基础-深度解析-大模型的能力
GPT-3在广泛的标准NLP基准测试和一次性任务上进行了评估。GPT-3可以表现得极好或者非常普通。增加模型的大小和示例的数量都有助于提高性能。有一些启发式的方法可以将语言模型适应到感兴趣的任务。但是为什么会有这样表现,没有人知道。原创 2025-03-07 12:00:00 · 772 阅读 · 0 评论 -
大模型基础-深度解析-什么是语言模型及大模型相关历史回顾
语言模型是序列x1Lx_{1:L}x1L的概率分布 p。直观上,一个好的语言模型应具有语言能力和世界知识。自回归语言模型允许有效地生成给定提示x1ix_{1:i}x1i的补全xi1Lx_{i+1:L}xi1L。温度可以用来控制生成中的变异量。语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。N-gram模型在计算上极其高效,但在统计上效率低下。原创 2025-03-06 15:01:18 · 1044 阅读 · 0 评论