- 博客(152)
- 收藏
- 关注
原创 大模型基础-深度解析-基于大模型的智能体(Agent)
在科技发展的历史中,人类一直期望追求智能化的实现,由此的幻想早已先行,有《机器人总动员》中的瓦力,有《终结者》中的T-800,也有《最后的问题》中的「模」,人们试图打造一种可以自主完成预设目标的代理或实体,即智能体 (AI Agents 或 Agents),以协助人类完成各种各样繁琐的任务。多年来,智能体作为人工智能一个活跃的应用领域吸引人们不断地研究探索。如今,大语言模型正蓬勃发展,日新月异。
2025-03-12 10:45:00
712
原创 大模型基础-深度解析-环境影响
环境影响是一个巨大的话题。一切都是相互联系的,所以很难得出一个干净的定量指标。但要真正着眼于全局。尽管如今大语言模型的还很少,但它正在快速增长。大语言模型的通用性提供了节省成本的潜力(“一次性训练”并适用于许多不同的任务)。但它们的成本要高得多,需要可能需要重新训练。这里的权衡是什么?缓解措施尝试在使用清洁能源的数据中心训练模型碳抵消的效果各不相同(森林种植活动产生单一种植)更高效的模型架构、训练程序、硬件(但要注意反弹效应)在论文报告排放量。
2025-03-12 09:30:00
684
原创 Llama进化史
总之,Llama模型的发布不仅证明了开源模型在全球AI领域的重要性,也为AI的未来发展方向提供了新的视角和动力。通过持续的技术进步和社区驱动的创新,Llama有望继续推动全球AI技术的广泛应用和发展。参考文献。
2025-03-12 07:45:00
879
原创 大模型基础-深度解析-大模型的有害性(下)
有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。然而,在我们深入讨论之前,需要指出的是,语言模型与这些伤害之间存在一种断裂。语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式。然而,这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着我们需要从更广泛的社会背景来考虑其危害性,而不是从文本的本身属性角度。在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。
2025-03-11 08:15:00
1023
原创 大模型基础-深度解析-大模型法律
在我们训练大型语言模型时,我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质,你必须诉诸公平使用(从每个人那里获得许可证将非常困难)。模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。在什么水平上进行调控(语言模型还是下游应用)是有意义的?这个领域正在迅速发展,需要深入的法律和人工智能专业知识才能做出明智的决定!
2025-03-11 08:00:00
1497
原创 大模型基础-深度解析-大模型的有害性(上)
在这次内容中,我们将开始探讨大型语言模型的有害性(危害)。:我们知道“能力越大责任越大,对于当前开创性的大模型来说,我们需要了解这些模型的能力和危害之间的密切关系。大模型的能力所展示的潜力将导致这些模型被广泛的采用,但是与此同时造成它们的危害。由于AI的发展是近几年发展的产物,因此对于危害的研究与预防依旧是一个很新的事情。因此回顾历史,从过往历史中的其他领域中的危害、安全和伦理问题的防御进行了解,首先考虑一些在具有成熟的危害和安全传统的学科中使用的高层次思想和方法,有助于对当前AI领域有所借鉴。
2025-03-10 12:30:00
1069
原创 大模型基础-深度解析-分布式训练
近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为的存在,单一设备的算力及容量,受限于物理定律,持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。
2025-03-10 08:45:00
617
原创 大模型基础-深度解析-模型训练
上一章中,我们讨论了大语言模型(例如,Transformer)的模型结构。在本章中,我们将讨论如何训练大语言模型。本章分成目标函数和优化算法两部分。
2025-03-09 15:30:00
883
原创 大模型基础-深度解析-大模型之Adaptation
探测作为一种强大的分析工具,通过冻结语言模型表示编码器(上图中灰色部分)和优化特定任务的探针(上图中预测头,蓝色部分)来工作。这些模型可以是线性的或浅前馈预测头,提供了一种灵活的方法来理解和解释深度学习模型的内部工作机制。固定长度表示的策略也进一步促进了这一目的,提供了灵活而有效的解决方案。冻结(灰色):无需任何操作。优化(蓝色,每个任务有所不同):语言模型的所有参数,外加一个新的预测头。微调是一种强大的工具,可以使预先训练的语言模型更好地符合人类的期望和需求。
2025-03-09 15:00:00
984
原创 大模型基础-深度解析-新的模型架构
回想一下第3章 模型架构,神经语言模型的核心接口是一个将token序列映射到上下文嵌入的编码器:[the,mouse,ate,the,cheese]ϕ⃗[(10.1),(01),(11),(1−0.1),(0−1)][\text{the}, \text{mouse}, \text{ate}, \text{the}, \text{cheese}] \vec{\phi} \left [\binom{1}{0.1}, \binom{0}{1}, \binom{1}{1}, \binom{1}{-0.1},
2025-03-08 12:00:00
954
原创 大模型基础-深度解析-大模型的数据
到目前为止,我们已经讨论了大型语言模型的行为(能力和损害)。现在,我们要剥开洋葱的第一层,开始讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据,因此这就是我们开始的地方。附录:通常在机器学习中,训练数据和测试(评估)数据是相似的,或者至少是同一类型的。但对于大型语言模型来说,训练数据就是“原始文本”。
2025-03-08 10:15:00
995
原创 大模型基础-深度解析-大模型的能力
GPT-3在广泛的标准NLP基准测试和一次性任务上进行了评估。GPT-3可以表现得极好或者非常普通。增加模型的大小和示例的数量都有助于提高性能。有一些启发式的方法可以将语言模型适应到感兴趣的任务。但是为什么会有这样表现,没有人知道。
2025-03-07 12:00:00
762
原创 大模型基础-深度解析-模型架构
为了更好的了解整体的功能结构(而不从一开始就陷入局部的结构细节),我们一开始先将语言模型(model)的看作一个黑箱(black box)(在后续的内容中再逐步的拆解),从形象化的概念理解上来说当前大语言模型(大:体现中模型的规模上)的能力,其可以根据输入需求的语言描述(prompt)生成符合需求的结果(completion),形式可以表达为:prompt⇝modelcompletion or model(prompt)=completionprompt \overset{model}{\leadst
2025-03-07 09:45:00
718
原创 大模型基础-深度解析-什么是语言模型及大模型相关历史回顾
语言模型是序列x1Lx_{1:L}x1L的概率分布 p。直观上,一个好的语言模型应具有语言能力和世界知识。自回归语言模型允许有效地生成给定提示x1ix_{1:i}x1i的补全xi1Lx_{i+1:L}xi1L。温度可以用来控制生成中的变异量。语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。N-gram模型在计算上极其高效,但在统计上效率低下。
2025-03-06 15:01:18
1036
原创 大模型理论基础介绍
本项目旨在作为一个大规模预训练语言模型的教程,从数据准备、模型构建、训练策略到模型评估与改进,以及模型在安全、隐私、环境和法律道德方面的方面来提供开源知识。项目将以为基础,结合来自开源贡献者的补充和完善,以及对前沿大模型知识的及时更新,为读者提供较为全面而深入的理论知识和实践方法。通过对模型构建、训练、评估与改进等方面的系统性讲解,我们希望建立一个具有广泛参考价值的项目。我们的项目团队成员将分工负责各个章节的内容梳理和撰写,并预计在三个月内完成初始版本内容。
2025-03-06 12:01:12
642
原创 2005-2021年国自然管理学部标书80+份及历年立项清单-最新出炉_附下载链接
内容:该资源包含了80多份管理科学部中标标书,为准备国家自然科学基金(国自然)的申请者提供了宝贵的参考和借鉴。部分清单:文章中提供了部分中标标书的清单,但具体标书内容需通过提供的链接查看。
2024-11-07 15:02:44
497
原创 精心整理教育研究专题数据资源大全-最新出炉_附下载链接
简介:《中国教育统计年鉴》是由教育部发展规划司根据全国各省、自治区、直辖市教育厅(教委)上报的学校基层统计调查数据整理汇编而成,全面反映我国教育事业发展情况。内容涵盖:综合部分、高等教育、中等教育、初等教育、特殊教育、学前教育、各级各类学校的分布情况、办学条件、科学研究等。数据范围:31个省、直辖市、自治区。数据年份:2000-2022年(包含2022年数据)。指标数量:3000+。数据来源:《中国教育统计年鉴2000-2022年》。
2024-11-07 14:29:10
1027
原创 【灯光数据最新整理】 2000至2023年“NPP-VIIRS“夜间灯光数据(500m分辨率)-最新出炉_附下载链接
时间范围:2000-2023年数据格式:栅格数据(.tif)数据分辨率数据坐标系数据来源:国家科技基础条件平台—国家地球系统科学数据中心(
2024-10-30 20:30:38
1304
原创 已更新10万条国家社科基金立项清单和近100份申请书范本-最新出炉 附下载链接
2024年度国家社科基金已开始申报,为了方便大家选题和撰写标书做参考,我们收集了以下资源:我们提供了超过100份经管类的国家社科基金立项申请书范本,供您参考和学习。以下是国家社科基金项目申请书的结构,以及表格各个部分的填写要点、撰写思路以及一些细节提示:结构:通常包括封面、目录、项目论证(活页)、活页摘要、推荐意见表、申报数据表等部分。填写要点:撰写思路:细节提示:我们还附赠了其他标书等相关资料,供您参考和学习。
2024-10-30 17:58:39
568
原创 Linux文件系统详解
4、因为文件名的记录是在目录的block当中,「新增/删除/更名文件名」与目录的w权限有关所以在Linux/Unix中,文件名称只是文件的一个属性,叫别名也好,叫绰号也罢,仅为了方便用户记忆和使用,但系统内部并不需要用文件名来定为文件位置,这样处理最直观的好处就是,你可以对正在使用的文件改名,换目录,甚至放到废纸篓,都不会影响当前文件的使用,这在Windows里是无法想象的。通过这个模型,API的设计可以化繁为简,用户可以使用通用的方式去访问任何资源,自有相应的中间件做好对底层的适配。
2024-08-09 11:30:00
1073
原创 Linux文件系统
文件系统就是分区或磁盘上的所有文件的逻辑集合。文件系统不仅包含着文件中的数据而且还有文件系统的结构,所有Linux 用户和程序看到的文件、目录、软连接及文件保护信息等都存储在其中。不同Linux发行版本之间的文件系统差别很少,主要表现在系统管理的特色工具以及软件包管理方式的不同,文件目录结构基本上都是一样的。
2024-08-09 10:15:00
659
原创 Linux操作系统原理-文件系统(2)
理解了文件系统的结构之后,我们来看一下文件的类型。Linux以文件的形式对计算机中的数据和硬件资源进行管理,也就是彻底的一切皆文件,反映在Linux的文件类型上就是:**普通文件、目录文件(也就是文件夹)、设备文件、链接文件、管道文件、套接字文件(数据通信的接口)**等等。而这些种类繁多的文件被Linux使用目录树进行管理, 所谓的目录树就是以根目录(/)为主,向下呈现分支状的一种文件结构。
2024-08-07 14:30:00
997
原创 Linux操作系统原理-文件系统(1)
虚拟文件系统(Virtual File System,简称VFS)是Linux内核的子系统之一,它为用户程序提供文件和文件系统操作的统一接口,屏蔽不同文件系统的差异和操作细节。借助VFS可以直接使用open()、read()、write()这样的系统调用操作文件,而无须考虑具体的文件系统和实际的存储介质。通过VFS系统,Linux提供了通用的系统调用,可以跨越不同文件系统和介质之间执行,极大简化了用户访问不同文件系统的过程。
2024-08-07 11:15:00
946
原创 Linux操作系统学习之文件系统
Linux一切皆文件的思想可谓众所周知,而其文件系统又是字符设备、块设备、管道、进程间通信、网络等等的必备知识,因此其重要性可想而知。本文将先介绍文件系统基础知识,然后介绍最重要的结构体inode以及构建于其上的一层层的文件系统。本文主要从文件系统的设计角度出发,逐步分析了inode和基于inode的ext4文件系统结构和主要组成部分,下面引用极客时间中的一张图作为总结。
2024-08-06 20:30:00
891
原创 LinuxIO之文件系统的架构
应用程序 ->read ->文件系统的代码 如何实现?当目录里面 A/B/C ,是如何找到C的全过程?文件系统如何描述文件在磁盘的哪些位置?硬链接和 符号链接的详细区别?userspace的文件系统的实现?
2024-08-05 13:00:00
784
原创 LinuxIO之块IO流程与IO调度器
这时应用程序感受不到自己被限速了,而内核在处理write-back的阶段,由于没有相关page cache中的inode是属于那个cgroup的信息记录,所以所有的page cache的回写只能放到cgroup的root组中进行限制,而不能在其他cgroup中进行限制,因为root组的cgroup一般是不做限制的。每个请求包含一个或多个bio结构,bio之间用有序链表连接起来,按bio起始扇区的位置从小到大,而且这些bio之间在磁盘扇区是相邻的,也就是说一个bio的结尾刚好是下一个bio的开头。
2024-08-05 10:30:00
1023
原创 C和C++面试 剪绳子
这里 6 同样可以拆成 6=2+2+2,但是 3(n - 3) - 2(n - 2) = n - 5 >= 0,在 n>=5 的情况下将绳子拆成 3 比拆成 2 效果更好。继续拆成更大的绳子可以发现都比拆成 2 和 3 的效果更差,因此我们只考虑将绳子拆成 2 和 3,并且优先拆成 3,当拆到绳子长度 n 等于 4 时,也就是出现 3+1,此时只能拆成 2+2。将绳子拆成 5 和 n-5,因为 5=2+3,而 5
2024-07-24 07:30:00
328
原创 机器人的运动范围
回溯是深度优先搜索的一种特例,它在一次搜索过程中需要设置一些本次搜索过程的局部状态,并在本次搜索结束之后清除状态。而普通的深度优先搜索并不需要使用这些局部状态,虽然还是有可能设置一些全局状态。例如,当 k 为 18 时,机器人能够进入方格 (35,37),因为 3+5+3+7=18。但是,它不能进入方格 (35,38),因为 3+5+3+8=19。一个机器人从坐标 (0, 0) 的格子开始移动,每一次只能向左右上下四个方向移动一格,但是不能进入行坐标和列坐标的数位之和大于 k 的格子。
2024-07-23 15:45:00
500
原创 C和C++矩阵中的路径
使用回溯法(backtracking)进行求解,它是一种暴力搜索方法,通过搜索所有可能的结果来求解问题。回溯法在一次搜索结束时需要进行回溯(回退),将这一次搜索过程中设置的状态进行清除,从而开始一次新的搜索过程。例如下图示例中,从 f 开始,下一步有 4 种搜索可能,如果先搜索 b,需要将 b 标记为已经使用,防止重复使用。在这一次搜索结束之后,需要将 b 的已经使用状态清除,并搜索 c。路径可以从矩阵中的任意一个格子开始,每一步可以在矩阵中向上下左右移动一个格子。
2024-07-23 11:00:00
355
原创 旋转数组的最小数字
如果数组元素允许重复,会出现一个特殊的情况:nums[l] == nums[m] == nums[h],此时无法确定解在哪个区间,需要切换到顺序查找。将旋转数组对半分可以得到一个包含最小元素的新旋转数组,以及一个非递减排序的数组。新的旋转数组的长度是原数组的一半,从而将问题规模减少了一半,这种折半性质的算法的时间复杂度为 O(log。把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素。
2024-07-22 17:30:00
284
基于Simulink模型软件测试数据自动生成方法研究.docx
2025-03-27
软考高级-信息系统项目管理师(备考必备).zip
2025-03-27
UE项目开发过程中的一些快捷脚本+说明文档.zip
2025-03-11
Pytorch算子说明书-V1.0.6.1:深度学习框架中Pytorch算子的支持及限制解析
2025-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人