自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 RFT强化微调解析调研

强化微调(RFT)是 OpenAI 推出的一种技术,旨在通过强化学习方法定制大型语言模型(LLM),特别是其推理模型(如 o1 模型),以适应特定任务或领域。它的核心优势在于数据效率高,仅需几十个训练示例即可实现高性能,这与传统监督微调(SFT)相比是一个显著进步。RFT 是一种由 OpenAI 开发的技术,专注于通过强化学习定制 LLM,特别是其推理模型(如 o1 模型)。根据的报道,RFT 能够以极少的数据(通常几十个示例)实现高效微调,这与传统监督微调(SFT)需要大量标注数据形成对比。

2025-03-19 11:46:49 666

原创 详解GRPO,PPO,DPO【附伪代码和详细公式】

详解GRPO,PPO,DPO。强化学习LLM

2025-03-05 10:46:48 1848 1

原创 Conflicts for LLM Research

2024-03引言:LLM受到retrieved documents,user prompt,Parametric Knowledge(Memory)三者的影响。并且这三者信息也会有错误。根据冲突信息的来源,可以两两组合划分下面三个类别:1. Context-Memory Conflict 即上下文和参数知识之间的冲突。例子1:模型通过Web检索获取的知识是即时的,但学到的知识已经“过气”;例子2:模型获得了错误的假信息,与参数知识发生了冲突。

2025-02-19 10:03:27 931

转载 Unturned开服教程

本教程旨在为那些想跟小伙伴一起玩Unturned但是苦于不会开服的玩家们提供一个全面的指南。无论你是技术小白还是有一定基础的玩家,我们都将一步步引导你从零开始搭建起你自己的Unturned服务器。

2025-02-19 10:01:08 294

原创 SYNTQA:Mixture of Text-to-SQL and E2E TQA阅读

文本到SQL解析和端到端问题回答(E2E TQA)是表格问答任务的两种主要方法。尽管在多个基准测试中取得了成功,但这两种方法尚未进行比较,它们的协同作用也未得到充分探索。本文通过在基准数据集上评估最先进的模型,识别了各自的优缺点:文本到SQL在处理涉及算术运算和长表格的问题时表现优越;而E2E TQA则在处理模糊问题、非标准表格模式和复杂表格内容方面更具优势。为了结合两者的优点,我们提出了一种协同表格问答方法,通过答案选择将不同的模型进行集成,这种方法与具体的模型类型无关。

2025-02-19 09:58:48 234

原创 LLM面试问题

其核心思想是通过自注意力(Self-Attention)机制处理序列数据,而不依赖于循环神经网络(RNN)或卷积神经网络(CNN)。BERT本质上是Transformer的一个变体(专注于Encoder部分),如果目标任务需要一个完整的Transformer架构(Encoder-Decoder或Decoder-only),直接替换可能会导致架构上的不匹配。其中 XX 是输入序列的表示,WQ,WK,WVW_Q, W_K, W_V 是可训练的权重矩阵。仅使用Transformer的编码器(Encoder)

2025-02-19 09:57:13 853

原创 保研专业课复习

![[Pasted image 20240816200435.png]]一些模板:Thanks for your question. It is undoubtedly a very interesting and meaningful question. I need a few seconds to organize my language.To be honest, I’m really nervous, so I am afraid that my oral English performance

2025-01-05 10:09:10 709

原创 Hadoop学习(大数据实验)

1、HDFS产生背景和定义1)HDFS产生背景随着数据量的增加,在一个操作系统存不下所有的数据,那么久分配到更多的操作系统管理的磁盘中,但将数据分散的存储在不同的操作系统中,不便于管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2)HDFS定义HDFS(Hadoop Distributed File System)是一种分布式文件系统,用于存储和管理大规模数据集的分布式存储解决方案,通过目录树来定位文件。

2025-01-05 10:08:06 2118

原创 微型计算机接口技术

这节出的题主要应该是给定什么工作方式,然后8255A的接口地址,写汇编代码传送。主要还是看书上的控制字等等代表的含义。软硬件之间的接口:连接软件和硬件的,通常是固化的一段程序。接口技术:对接口硬件和软件的综合设计称为接口技术。软件接口:两个软件之间为交换信息而约定的逻辑边界。硬件接口:两个部件或两个设备之间的逻辑电路。接口:两个部件或者两个系统之间的交接部分。数据通信 = 数据传输 + 数据处理。

2025-01-05 10:07:07 632

原创 人工智能的数学基础

作为课程的学习,顺便自己也学习一下机器学习的基础和相关的数学基础,巩固下基础吧。基础一定是线性代数。–先线性代数进行学习吧。课程为 MIT 18.06。

2025-01-05 10:06:26 2020

原创 C++标准模板库STL(算法题使用)

由于自己之前并不常用STL库,而STL库在很多算法中能够节省很多自己手打数据结构的时间,故这里开一个笔记来重新学习一下,也方便自己之后能够复习。【简介】vector翻译为向量,我觉得用‘变长数组’来解释他更为合适。利用vector可以避免超内存等情况,节省空间。也可以用邻接表的方式来存储图。 使用vector头文件是 vector 需要 include.1,vector定义单独定义一个vector:上面这个定义其实相当于定义了一个一维数组 name[SIZE],只不过其长度可以根据需要进行变化。

2025-01-05 10:05:12 384

原创 数据库复习

数据是数据库中存储的基本对象。[定义]计算机用来描述事物的符号记录(文字.图形.图像.声音)数据的形式本身并不能完全表达其内容,需要经过语义解释。特点:数据与其语义是不可分的这里就是自己对数据加上域,即添加约束。用户自定义完整性1针对某一具体关系数据库的约束条件,反映某一具体应用所涉及的数据必须满足的语义要求,例如某个属性必须取唯一值,某个非主属性不能取空值等等.1,定义模式:CREATE SCHEMA <模式名> AUTHORIZATION <用户名>;若没有指定模式名 则默认为用户名。

2024-12-16 22:56:16 835

原创 计算机体系结构

计算机系统结构的基础知识计算机目前已经发展了五代,这五代在器件,体系结构技术和软件技术方面具有明显特征。按照价格可以分为五个档次:巨型机,大型机,中型机,小型机,微型机。目前计算机体系结构的研究内容:全面提高计算机系统性能,即可用性,可维护性,可缩放性。计算机系统结构的基本概念计算机系统的层次结构计算机系统 = 硬件/固件 + 软件硬件:包括控制器,存储器,系统结构,运算器,等等软件:包括编译器,解释器,运行环境,调试器等等计算机语言是从低级向高级进行发展的:高一级的语言相对于低一级语言来说

2024-12-16 22:55:19 781

原创 操作系统笔记

操作系统笔记

2024-12-16 22:53:55 1732

原创 保研专业课复习

数理逻辑,二元关系,群与环,数论什么的,是一门比较抽象的学科,主要作用是建立相关的数学 模型,把实际问题抽象成为计算机能够理解的逻辑结构,并且用计算机的思维去解决实际问题,往 往实际用的不多,主要是训练思维。线性变换可以用变换后基向量的坐标来表示!可以看作是一个向量u向另一个向量w的投影的长度乘上另一个向量w的长度,如果投影之后方向相反,则结果为负。(2)邻接表:当一个图为稀疏图时,使用邻接矩阵法显然要浪费大量的存储空间,图的邻接表法结合了序存储和链式存储方法,可以大大减少这种不必要的浪费。

2024-12-16 22:52:50 555

原创 Modelsim的安装问题(没有生成许可证文件)

有虚拟机的一定把虚拟机网卡禁用掉 只留一个你使用的 害我搞了好久

2023-03-15 22:21:26 735 1

原创 matlab钻石项链

简陋的钻石项链

2022-10-18 13:41:21 756

原创 八皇后问题代码

提供给和我有相同思路但没有ac的朋友借鉴

2022-10-16 18:07:01 120

原创 KAIL配置源安装源自己出现的一些问题

​W: 签名无效 & E: 没有数字签名 错误:W: GPG 错误:https://repo.fdzh.org/chrome/deb stable Release: 下列签名无效: EXPKEYSIG 1397BC53640DB551 Google Inc. (Linux Packages Signing Authority) linux-packages-keymaster@google.com E: 仓库 “https://repo.fdzh.org/chrome/deb stable Relea

2022-09-03 19:34:14 494 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除