自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 论文《Expand, Rerank, and Retrieve: Query Reranking for Open-Domain Question Answering》模型原理梳理

解决 “传统检索器 BM25‘快但笨’、dense 检索器 DPR‘聪明但慢’” 的矛盾 —— 提出EAR 方法,让 BM25 在保留 “快、省资源” 优势的同时,变得更能理解语义、精准找文档,最终在开放域问答的段落检索任务中,效果超过 DPR。做检索,有两种常用工具,但各有优缺点:之前有人想帮 BM25 “变聪明”,提出了GAR 方法:用 AI 生成 “扩展查询”(比如把 “哪里种啤酒花” 扩展成 “美国种啤酒花的州有俄勒冈、华盛顿”),再让 BM25 用扩展查询检索。但 GAR 有两个大问题,这也是论文

2025-10-21 22:09:37 723

原创 课题学习——RAG与BGE

基于 BGE-M3 基座模型,参数量约 5 亿,模型大小为 2.27GB。它支持 100 多种语言,最大输入长度为 8192 tokens,还支持文本 + 图片混合检索。该模型推理速度快,端到端检索质量优,适合多模态检索、跨语言长文档处理等场景。:基于 gemma-2b 模型训练,参数量为 2.51B,支持 100 多种语言,最大输入长度为 8192 tokens,通过分层知识蒸馏优化了推理效率,在多语言和长文本场景中表现突出,适合多语言长文档排序、跨模态混合检索等场景。

2025-10-15 15:50:29 750

原创 课题学习——SimCSE

SimCSE发表于人工智能和机器学习领域的顶级国际会议ICLR 2021 的杰出论文奖。

2025-09-22 18:19:29 789

原创 课题学习4——将原系统的BERT换为SBERT

我认为对于心法系统属于专业领域,单纯的使用模型不进行微调生成句向量的质量有限,原系统也是进行了微调,后续将进行微调再作测试原系统的局限在测试时进一步显现,如果资料库中存在与输入问题词重复率高的已有问题,即使语义不同,相似度也会很高,用SBERT优化后这种情况确实避免了。all-MiniLM-L6-v2对于同义不同表达的句子也会收到句子结构表达方式的影响。

2025-08-04 17:00:24 575

原创 课题学习笔记3——SBERT

无需手动提取隐藏层(省去相关逻辑)无需加权融合(模型内置最优融合策略)支持批量编码(直接处理列表)

2025-07-29 17:27:54 683

原创 课题学习笔记2——中华心法问答系统

进行环境配置,对基本代码进行阅读,理解代码的结构、主要功能模块的代码实现。

2025-07-22 18:10:49 1058

原创 课题学习笔记1——文本问答与信息抽取关键技术研究论文阅读(用于无结构化文本问答的文本生成技术)

上周对国防科技大学的论文进行了阅读,学习了问答的一些基本知识,以及精读了“基于知识图谱的问答”部分,这周继续阅读“用于无结构化文本问答的文本生成技术”部分,这周大部分时间在准备比赛,所以看的有些慢。

2025-07-15 20:28:51 805

原创 机器学习——PCA主成分分析

PCA(Principal Component Analysis,主成分分析)是一种统计学方法,用于对数据进行降维处理。它通过线性变换将原始数据转换到一个新的坐标系统中,使得在这个新坐标系下,PCA的目标是提取数据中最重要的信息(即主成分),去除冗余信息,从而降低数据的维度,同时。

2025-06-09 14:25:12 1188

原创 机器学习——SVM

支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。

2025-06-03 16:51:13 2353

原创 机器学习——逻辑回归

逻辑回归模型训练过程中的参数优化一般使用最大似然估计来实现。对应的损失函数是交叉熵损失(Cross-Entropy Loss),也称为对数损失(Log Loss)其中,N是样本数量,是第i个样本的实际类别标签,p(y=1∣) 是模型预测的概率。显然,当真实标签为0时,损失函数只有后半部分参与计算,为1时则只有前半部分参与计算。该损失函数会迫使逻辑函数的预测概率逼近真实标签。

2025-05-19 16:22:33 841

原创 机器学习朴素贝叶斯算法

比如“敲声=清脆”测试例,训练集中没有该样例,因此连乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是“好瓜=否”,这显然不合理。之所以称之为“朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是相对独立的。其核心思想是通过考虑各个特征的概率来预测分类(即对于给出的待分类样本,计算该样本在每个类别下出现的概率,最大的就被认为是该分类样本所属于的类别。此文件负责模型的训练和预测工作,接收预处理后的数据和标签编码器,创建高斯朴素贝叶斯分类器,进行训练和预测,并将预测结果解码输出。

2025-05-05 22:30:14 1346

原创 机器学习决策树

设 𝑋 是取值在有限范围内的一个离散随机变量,其概率密度为:随机变量 𝑋 的熵定义为:当某个集合含有多个类别时,此时 𝑘 较大, 𝑝𝑖 的数量过多;且整体的 𝑝𝑖 都会因 𝑘 的过大而普遍较小,从而使得 𝐻(X) 的值过大。这正好符合“熵值越大,事物越混乱”的定义。

2025-04-19 20:36:13 1308 1

原创 绘制ROC曲线与PR曲线

真正例(True Positive,TP):指正确分类成为正的样本数,实际为正,预测为正伪反例(False Positive,FP): 指错误分类为正的样本数,实际为负,预测为正伪反例(False Negative,FN):指错误分类为负的样本数,实际为正,预测为负真反例(True Negative,TN):指正确分类为负的样本数,实际为负,预测为负。

2025-04-07 16:26:44 861

原创 KNN算法

由此观之,K的取值对模型效果有着很大的影响,k取值过小模型容易被噪声影响,过拟合;K取值过大,模型容易欠拟合,尚未学习完好;

2025-03-21 20:41:00 1488

原创 【无标题】

你需要将以下五条环境变量中涉及的到的"D:\WorkSoftware\Install\Anaconda3"都修改为你的Anaconda的安装路径)(简要说明五条路径的用途:这五个环境变量中,1是Python需要,2是conda自带脚本,3是jupyter notebook动态库, 4是使用C with python的时候)只选择第二项,说要默认使用python的版本,后期手动添加环境变量,再点击install。计算机(右键)→属性→高级系统设置→(点击)环境变量。选择安装路经,这里一定要选择除了C盘的盘。

2025-03-01 23:39:57 640

原创 C++模板

建议使用显示指定类型的方式调用函数模板,这样就确定了通用类型T,以免编译器自动推导发生错误既然提供了函数模板,最好就不要提供普通函数,否则容易出现二义性利用具体化的模板(重载的模板)可以解决自定义类型的通用化学习模板并不是为了写模板,而是在STL能够运用系统提供的模板。

2024-02-21 22:59:41 818

原创 C++多态

用sizeof来查看Animal类只占一个字节,因为只有非静态成员函数属于类的对象上,所以speak这个非静态成员函数不属于Animal这个类的对象上,相当于一个空类,占用一个字节。如果子类中不重写函数,那么只是执行了简单的继承,子类也会将父类中的vfptr指针继承下来并且指向父类的虚函数列表。如果发生了重写,子类中的虚函数内部会替换成子类的虚函数地址(从父类中继承下来的,且父类中的虚函数表)在多态中,通常父类中的虚函数的实现是毫无意义的,主要都是调用子类重写的内容。

2024-02-18 22:27:39 1989

原创 ros安装、重要概念、练习

ROS中的服务是一种同步、请求-响应式的通信机制,用于需要即时结果或确认的请求。其中,目标是客户端发送给服务端的动作指令,结果是服务端执行动作后的输出结果,而反馈则是服务端在执行动作过程中定期发送给客户端的状态信息。客户端发送动作的目标给服务端,服务端则执行该动作,控制机器人达到目标,并在执行过程中周期性地反馈状态。话题适用于需要持续、实时数据传输的场景,如传感器数据的发布和订阅。总的来说,ROS中的动作是一种应用层的通信机制,它基于话题和服务实现,特别适用于需要长时间响应和中途反馈的机器人行为管理。

2024-02-17 21:44:23 1931 1

原创 C++继承

继承的好处:可以减少重复代码A类称为 子类 或 派生类B类称为 父类 或 基类public 为继承方式一类是从基类继承过来的(表现其共性)一类是自己增加的成员(表现其个性)

2024-02-08 21:53:37 1660

原创 类和对象—C++运算符重载

对于内置的数据类型的表达式的运算符是不可以改变的不要滥用运算符重载(加法写成其他运算方式)

2024-02-05 17:39:15 556 1

原创 C++类和对象—友元

若要使该全局函数可以访问私有属性,可以将该函数名复制到类内,并在开头加上friend关键字,结尾加上分号。目的:让GoodGay这个类下的成员函数visit可以访问Building中的私有成员。(说明visit这个函数是Building的友元,而且是在GoodGay这个类下)在程序里,有些私有属性也想让类外特殊的一些函数或者类进行访问,就需要用到友元技术。全局函数无法访问类中的私有属性(私有属性只能在类内访问)目的:让一个类可以访问另一个类中的私有成员,让一个函数或者类访问另一个类中私有成员。

2024-02-04 15:59:34 306 1

原创 C++对象模型和this指针

如要要修改常函数中的某些值,在属性前加mutable关键字,加了之后在常对象和常函数中都可以修改该值。在成员p调用showPerson函数时this指针已经指向了p所以不可再修改this指针指向的值。非静态成员变量在对象创建后才有效,这里创建的对象*p为空,非静态成员变量无效。在成员函数后面加const,修饰的是this指针,让指针指向的值也不可以修改。this是指向p2的指针,而*this指向的就是p2这个对象本体。this指针的本质是指针常量 指针的指向是不可以修改的。

2024-02-03 22:06:46 355 1

原创 C++内存四区

代码区:存放所有代码。

2024-02-02 19:51:06 194

原创 C++类和对象—对象特征

如将对象创建在main函数中,对象P并不会被立即释放,所以暂时没有引用析构函数,在按任意键继续以后,程序结束,才将对象释放。由输出结果,构造函数执行完之后立刻执行析构函数再输出“aaaaa”,可见,执行结束后系统立即回收了匿名对象。当前执行结束后,系统会立即回收匿名对象,因为匿名对象没有名,所以后面无法继续使用。4.程序在调用对象的时候会自动调用构造,无需手动调用,而且只会调用一次。4.程序在对象销毁前会自动调用构析,无需手动调用,而且只会调用一次。如上图,p3是一个拷贝函数,不可再用来初始化匿名对象。

2024-01-29 20:30:07 483

原创 c++类和对象—封装

C++面对对象的三大特征:封装、继承、多态C++认为万事万物都皆为对象,对象上有其属性和行为。

2024-01-29 20:27:56 589

原创 24.1.26C++学习

作用:将一段经常使用的代码封装起来,减少重复代码一个较大的程序,一般分为若干个程序块,每个模块实现特定功能五个步骤:a.返回值类型b.函数名b.参数列表d.函数体语句e.return表达式返回值类型与return表达式一致。

2024-01-29 14:51:29 316

原创 24.1.22C++学习

第二种定义方式:如果在初始化数据的时候,没有全部填写完,会用0来填补剩余数据定义数组时必须有初始长度注意:可以省去行数不可省去列数作用:将一段经常使用的代码封装起来,减少重复代码一个较大的程序,一般分为若干个程序块,每个模块实现特定功能五个步骤:a.返回值类型b.函数名b.参数列表d.函数体语句e.return表达式返回值类型与return表达式一致。

2024-01-29 14:50:38 493

原创 24.1.21c++学习

添加一行代码:srand ((unsigned int )time(NULL));让随机数随着当前系统时间随机生成,此代码需要引入头文件:#include <ctime>来获取系统时间。注意:c++中三目运算的结果可以赋值给其他变量,同时三目运算返回的是变量可以继续被赋值。遇到continue不执行语句3,而是开始下一次循环,执行语句1、2。含义:如果表达式1为真,执行表达式2,否则执行表达式3的语句。若要生成1~100—>0+1~99+1。特点:外层循环执行一次,内层循环一周。作用:执行满足条件的语句。

2024-01-29 14:50:05 744

原创 24.1.20c++学习

关键字char注意输出字符型变量对应的ASCII编码的格式。

2024-01-29 14:48:46 424

原创 24.1.18Linux学习+练习题

在命令模式下输入 :1,$s/linux/123/g将整个文本的Linux替换为123。首先需要输入命令sudo snap install tree下载tree。2、环境变量 PATH。注意-C中的C 为大写。4、自行设置环境变量。

2024-01-29 14:47:23 219

原创 robocup环境安装

把JMU-Robocup-train文件夹中的SimSpark.tar.gz移动到主目录下,右键点击“提取到此处解压”移动RoboViz源码包:把JMU-Robocup-train中的RoboViz.tar.gz,右键点击提取到此处解压。MON="/home/用户名/RoboViz/bin/roboviz.sh"模糊的球场成功打开则说明初步安装成功,继续进行以下步骤,打开清晰球场。1、检查前面的依赖是不是都装好了,不确定就回去重新来一遍。Ctrl+Alt+T打开终端按顺序执行以下命令。

2024-01-29 14:46:15 429

原创 24.1.17Linux学习

a.在VMware Workstation的 编辑 -虚拟网络编辑器-VMnet8。设置子网IP为:192.168.88.0到192.168.88.254。需输入 apt -y install net-tools 安装使用。首先下载安装namp:apt -y install nmap。(1)在VMware Workstation中配置固定IP。执行ifconfig即可看到固定ip地址。在windows系统中配置固定IP。将“dhcp”改为“static”查看某一ip的端口占用情况。一、IP地址、主机名。

2024-01-18 09:04:14 385 1

原创 24.1.15linuxxuex

(2)新装的Ubuntu下无法切换root用户,因为默认root用户没有开启,需要输入命令sudo passwd root 设置root用户密码,即可切换。输入命令 gcc -o test test.c 进行编译(test是要输出的文件名,test.c是要编译的文件名)若此文件属于我,但无权力修改到其他用户和用户组,需要切换到root用户。(1)通过命令 apt -y install ntp 来安装。如含有空格,加双引号,不加双引号则报错:”额外的操作数“输入i,进入编辑模式,开始编写程序。

2024-01-15 21:20:40 358 1

原创 robocup环境配置

把JMU-Robocup-train文件夹中的SimSpark.tar.gz移动到主目录下,右键点击“提取到此处解压”移动RoboViz源码包:把JMU-Robocup-train中的RoboViz.tar.gz,右键点击提取到此处解压。MON="/home/用户名/RoboViz/bin/roboviz.sh"模糊的球场成功打开则说明初步安装成功,继续进行以下步骤,打开清晰球场。1、检查前面的依赖是不是都装好了,不确定就回去重新来一遍。能打开更清晰的球场界面即成功(如下图)(1)1、下载文件夹。

2024-01-15 13:43:08 528 1

原创 24.1.14学习记录

解决:ctrl+alt+delete,进入任务管理器,左键,结束进程。(2)linux基础命令(以下截图来自b站IT黑马网课)(1)安装虚拟机安装错误无法退出。(6)为普通用户配置sudo认证。rm 用于删除文件、文件夹。su和exit切换账户。which 查找命令。

2024-01-15 10:36:43 434 1

原创 24.1.13

解决:(1)对照说明找不同,发现复制到文件夹里的文件类型不同,重新复制文件。(2)系统上全局禁用了虚拟打印功能,虚拟机无法使用打印功能,无法打印。编辑 -> 首选项 里 启动虚拟打印机,将打印功能开启。(1)虚拟机快照:更改虚拟机后可复原到快照时的状态。ls [-a -l -h] [linux路径]问题:打开虚拟机后,黑屏,只有一个光标闪烁。a. 命令、选项、参数之间有空格。相对路径绝对路径和特殊路径。c. -h 不能单独使用。b.选项可以组合使用。

2024-01-13 21:07:11 459 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除