- 博客(44)
- 资源 (5)
- 问答 (2)
- 收藏
- 关注
原创 Qwen的前世今生
提出了Qwen,训练token达到3T。和Llama一样,基于预训练模型使用RLHF训练。此外,还提出了CODE-QWEN、MATH-QWEN-CHAT、QWEN-VL。
2025-03-14 11:37:34
880
原创 Llama LLM的前世今生
对于未知的 UTF-8 字符,回退到字节级别进行分解。各数据占比如下:English CommonCrawl(67%)、C4(15%)、Github(4.5%)、Wikipedia(4.5%)、Books(4.5%)、ArXiv(2.5%)、Stack Exchange(2%)。现代基础模型的开发包括两个主要阶段:(1) 预训练阶段,使用简单的任务(如下一个单词预测或字幕)对模型进行大规模训练,以及 (2) 训练后阶段,在该阶段,模型被调整为遵循指令,符合人类偏好,并改进特定功能(例如, 编码和推理)。
2025-03-14 09:58:02
1108
原创 ReAct论文阅读笔记总结
上图表示4种提示方法的比较。(1a)表示普通方法,(1b)表示CoT,即只有Reason。(1c)表示仅行动,(1d)表示ReACT,即Reason+Act。上图表示基于AlfWorld解决方案的Act和ReAct方法比较。(2a)表示只有行动,(2b)表示ReAct。如何以协同的方式结合推理与行动,以及这种结合是否能带来相较于单独推理或行动的系统性优势。最近的研究结果暗示了在自主系统中结合语言推理与交互决策的可能性。举例四种方式的Prompt案例。
2025-03-07 14:46:35
708
1
原创 DeepSeek各版本笔记总结
它已被证明可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时需要相对最少的计算资源来对抗预训练。Llama 系列模型脱颖而出,它整合了一系列工作,以创建一个高效稳定的架构,构建从 7B 到 70B 参数的高性能模型。尽管 MoE 架构有很多优点,但它也面临一个重要问题:如何确保每个专家都能获得非重叠且聚焦的知识,即每个专家都能获得不重叠和集中的知识。随着LLM参数的增加,LLM表现的更加智能,但是,这种改进是以更大的训练计算资源和推理吞吐量的潜在降低为代价的。实现经济的训练和高效的推理。
2025-03-06 10:53:34
1115
原创 Agent及相关知识介绍
举个例子:假设给Agent一个目标,”帮我研究某款新智能手机的市场反馈“,Agent接收到命令后会去自主执行一系列操作,比如通过访问网络、搜索相关的新闻、论坛帖子或社交媒体来收集信息,分析哪些信息来源可靠,决定优先处理哪些数据,比如选择查看销量数据或用户评分。上图表示了多Agent的模式,比如联合聊天,通过两个或多个Agent可以直接双向交流,合作解决问题。:包括Agent可能调用的各种工具,如日历,搜索功能,计算器等。:Agent分析感知的信息,并结合知识库中的数据,通过决策引擎做出决策。
2025-03-02 10:26:44
583
原创 PyTorch单机多卡训练(无废话)
目前大家基本都在使用DistributedDataParallel(简称DDP)用来训练,该方法主要用于分布式训练,但也可以用在单机多卡。
2024-10-09 15:08:32
1892
原创 一文教会你学会如何用正则表达式
正则表达式是用来处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。
2023-03-18 19:16:48
733
原创 使用Ngrok做内网穿透,将本地项目部署到公网(举例Vue3)
请注意,Ngrok会在您的终端窗口中显示所有传入和传出的HTTP请求和响应。同时,由于Ngrok是一个公开的服务,其他人也可以访问您的Web应用程序。因此,在使用Ngrok时请确保您的应用程序已经进行了适当的安全设置。这将会在Ngrok上创建一个公开的隧道,并将来自本地端口8080的流量转发到该隧道上。在这里,[随机字符串]是您在步骤3中获得的Ngrok子域名。这个随机字符串是您的Ngrok子域名,您将使用它来访问您的Web应用程序。在使用Ngrok之前,您需要先认证您的帐户。
2023-02-24 20:20:51
463
原创 软件工程第六版全书总结笔记
软件工程(!!!重在理解基本原理和概念,不要陷于工具的细节!!!)第一章软件工程学概述软件工程诞生的背景:为了更有效的开发与维护软件。软件危机:计算机软件的开发和维护过程中所遇到的一系列严重问题,主要表现如下软件成本不准确用户对结果不满意软件质量不行软件维护性差软件缺乏必要的文档资料软件工程:指导计算机软件开发和维护的一门工程学科,包括开发技术和开发管理两方面内容,中心课题是控制复杂性 本质特性:1.软件工程关注于大型程序的构造 2.控制复杂性 3.软件
2022-03-25 23:30:58
3891
转载 VSCode中C语言乱码问题(已解决,三种方法)
VSCode 与 cmd 两者之间的编码方式不一样:VSCode 默认是 utf-8 编码,而在中国地区下的 Windows 的 cmd 默认是 GBK 编码。方法一VSCode终端其实调用的是cmd.exe,所以当这里出现中文乱码的时候要解决的是cmd的编码设置问题。1.可以通过 chcp 命令查看 cmd 的编码设置,GBK2312 的代码页编号是 936,然后改成utf-8的编码即可,2.utf-8 对应的代码页编号是 65001 ,所以执行 chcp 65001 就可以把cmd的编码设
2022-03-11 20:55:11
31409
12
原创 从浅入到深入了解static关键字
摘要:https://blog.youkuaiyun.com/guotianqing/article/details/79828100https://blog.youkuaiyun.com/keyeagle/article/details/6708077
2022-03-10 16:35:38
1094
原创 3张图带你认识三大范式(再看那些抽象概念你就会慢慢透彻)
三大范式:为什么要用三大范式?答:范式可以避免数据冗余,减少数据库的空间,减轻维护数据完整性的麻烦。但是!!!!操作比较困难,因为需要多个表联系起来才能得到所需要的数据,并且!!!!范式越高性能就会越差!所以在一般项目中,用的最多的也就到3NF,性能好并且容易管理数据。那三大范式到底是个啥?先介绍第一范式解释第一范式:上图案列,联系方式含有email和phone,这样就失去了【每一个属性都是原子项,不可分割】的要求。所以我们应该怎么办?详细分呗,将联系方式拆成电话+电子邮
2022-03-06 14:41:47
719
原创 通俗易懂,带你了解应用面向对象(含例子超简单)
面向对象的一些基本概念软件工程第六版下面都是面向对象的精华,好好吸收,完全可以掌握拿一个圆做例子,有半径、周长、颜色、位置,我们现在有3个不同的圆,每个圆就是一个不同的的对象。但是他们都有相同的数据(半径、周长…)和相同的操作(显示自己、缩小半径等),因此他们是同一类事物,用Circle类来定义,而3个不同的圆可以声明为circle1,circle2,circle3,是具体的对象。实例就是由某个特定的类所描述的一个具体的对象,类是抽象的,并不是真是存在的,谁也没有见过抽象的圆。换句话来说
2022-03-02 10:19:54
1843
1
原创 验证分析一级二级指针地址的变化(逻辑思路过程)
指针到底是怎样运行的?自己做了一个实验内容如下:实验之前先要了解的知识:指针格式: 类型名 * 指针变量名指向什么类型的数据,就定义一个什么类型的指针*&是取地址符 是取值运算符开始实验 char *p; printf("p的地址为%d\n",&p); char a[]="SpringMvc"; printf("a[]的地址为%d\n",a); p=a; printf("p指针指向的地址%d\n",p); printf("p指针本身的地址%d\n",&a
2022-02-27 10:58:30
320
原创 c语言 scanf为什么要用&来取地址
**因为scanf要往你的变量里写入数值,所以他必须知道那个变量的地址,至于变量里存的是什么值,他是不管的,反正他写入之后就被覆盖成新的值了对比printf,他是要输出变量里的数值,他只管要那个值,至于地址在哪,他也无所谓这就是写和读的本质性区别,写只要地址,读只要值变量其实同时有地址和值两个东西,我们一般用一个变量,都是直接写一个名字,其实如果这个名字在赋值号右边,就是代表值,如果在赋值号左边,就是代表地址,写出来一样,意义是不一样的,编译器自动帮你选择了正确的意义变量名字写在函数参数里面时,和写
2022-02-27 07:29:50
3726
1
原创 JDK新特性Stream流入门学习详解
文章目录前言一、什么是流?二、创建流语法:1.将值转换为流(例子,一般用于筛选数据)2.将集合转化为流3.将数组转化为流4.无限流4.最后举个例子总结JDK 8引入了全新的Stream API。其允许以声明性方式处理数据集合。更像可以遍历数据集的高级迭代器;更重要的是,流还可以透明的并行处理数据(可以更好的利用多核心处理器),而不需要任何多线程代码。前言为什么使用流?几个单词就能把迭代器的活全干了,不用管是什么数据类型,直接遍历。一、什么是流? 定义: 流是从支持数据处理操作的源,生成的元.
2022-01-22 16:41:25
704
Servet的值为什么没有传过来?系统报空指针异常
2021-05-18
Serlet访问数据库报500
2021-05-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人