- 博客(36)
- 收藏
- 关注
原创 论文《Expand, Rerank, and Retrieve: Query Reranking for Open-Domain Question Answering》模型原理梳理
解决 “传统检索器 BM25‘快但笨’、dense 检索器 DPR‘聪明但慢’” 的矛盾 —— 提出EAR 方法,让 BM25 在保留 “快、省资源” 优势的同时,变得更能理解语义、精准找文档,最终在开放域问答的段落检索任务中,效果超过 DPR。做检索,有两种常用工具,但各有优缺点:之前有人想帮 BM25 “变聪明”,提出了GAR 方法:用 AI 生成 “扩展查询”(比如把 “哪里种啤酒花” 扩展成 “美国种啤酒花的州有俄勒冈、华盛顿”),再让 BM25 用扩展查询检索。但 GAR 有两个大问题,这也是论文
2025-10-21 22:09:37
723
原创 课题学习——RAG与BGE
基于 BGE-M3 基座模型,参数量约 5 亿,模型大小为 2.27GB。它支持 100 多种语言,最大输入长度为 8192 tokens,还支持文本 + 图片混合检索。该模型推理速度快,端到端检索质量优,适合多模态检索、跨语言长文档处理等场景。:基于 gemma-2b 模型训练,参数量为 2.51B,支持 100 多种语言,最大输入长度为 8192 tokens,通过分层知识蒸馏优化了推理效率,在多语言和长文本场景中表现突出,适合多语言长文档排序、跨模态混合检索等场景。
2025-10-15 15:50:29
750
原创 课题学习4——将原系统的BERT换为SBERT
我认为对于心法系统属于专业领域,单纯的使用模型不进行微调生成句向量的质量有限,原系统也是进行了微调,后续将进行微调再作测试原系统的局限在测试时进一步显现,如果资料库中存在与输入问题词重复率高的已有问题,即使语义不同,相似度也会很高,用SBERT优化后这种情况确实避免了。all-MiniLM-L6-v2对于同义不同表达的句子也会收到句子结构表达方式的影响。
2025-08-04 17:00:24
575
原创 课题学习笔记1——文本问答与信息抽取关键技术研究论文阅读(用于无结构化文本问答的文本生成技术)
上周对国防科技大学的论文进行了阅读,学习了问答的一些基本知识,以及精读了“基于知识图谱的问答”部分,这周继续阅读“用于无结构化文本问答的文本生成技术”部分,这周大部分时间在准备比赛,所以看的有些慢。
2025-07-15 20:28:51
805
原创 机器学习——PCA主成分分析
PCA(Principal Component Analysis,主成分分析)是一种统计学方法,用于对数据进行降维处理。它通过线性变换将原始数据转换到一个新的坐标系统中,使得在这个新坐标系下,PCA的目标是提取数据中最重要的信息(即主成分),去除冗余信息,从而降低数据的维度,同时。
2025-06-09 14:25:12
1188
原创 机器学习——SVM
支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。
2025-06-03 16:51:13
2353
原创 机器学习——逻辑回归
逻辑回归模型训练过程中的参数优化一般使用最大似然估计来实现。对应的损失函数是交叉熵损失(Cross-Entropy Loss),也称为对数损失(Log Loss)其中,N是样本数量,是第i个样本的实际类别标签,p(y=1∣) 是模型预测的概率。显然,当真实标签为0时,损失函数只有后半部分参与计算,为1时则只有前半部分参与计算。该损失函数会迫使逻辑函数的预测概率逼近真实标签。
2025-05-19 16:22:33
841
原创 机器学习朴素贝叶斯算法
比如“敲声=清脆”测试例,训练集中没有该样例,因此连乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是“好瓜=否”,这显然不合理。之所以称之为“朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是相对独立的。其核心思想是通过考虑各个特征的概率来预测分类(即对于给出的待分类样本,计算该样本在每个类别下出现的概率,最大的就被认为是该分类样本所属于的类别。此文件负责模型的训练和预测工作,接收预处理后的数据和标签编码器,创建高斯朴素贝叶斯分类器,进行训练和预测,并将预测结果解码输出。
2025-05-05 22:30:14
1346
原创 机器学习决策树
设 𝑋 是取值在有限范围内的一个离散随机变量,其概率密度为:随机变量 𝑋 的熵定义为:当某个集合含有多个类别时,此时 𝑘 较大, 𝑝𝑖 的数量过多;且整体的 𝑝𝑖 都会因 𝑘 的过大而普遍较小,从而使得 𝐻(X) 的值过大。这正好符合“熵值越大,事物越混乱”的定义。
2025-04-19 20:36:13
1308
1
原创 绘制ROC曲线与PR曲线
真正例(True Positive,TP):指正确分类成为正的样本数,实际为正,预测为正伪反例(False Positive,FP): 指错误分类为正的样本数,实际为负,预测为正伪反例(False Negative,FN):指错误分类为负的样本数,实际为正,预测为负真反例(True Negative,TN):指正确分类为负的样本数,实际为负,预测为负。
2025-04-07 16:26:44
861
原创 【无标题】
你需要将以下五条环境变量中涉及的到的"D:\WorkSoftware\Install\Anaconda3"都修改为你的Anaconda的安装路径)(简要说明五条路径的用途:这五个环境变量中,1是Python需要,2是conda自带脚本,3是jupyter notebook动态库, 4是使用C with python的时候)只选择第二项,说要默认使用python的版本,后期手动添加环境变量,再点击install。计算机(右键)→属性→高级系统设置→(点击)环境变量。选择安装路经,这里一定要选择除了C盘的盘。
2025-03-01 23:39:57
640
原创 C++模板
建议使用显示指定类型的方式调用函数模板,这样就确定了通用类型T,以免编译器自动推导发生错误既然提供了函数模板,最好就不要提供普通函数,否则容易出现二义性利用具体化的模板(重载的模板)可以解决自定义类型的通用化学习模板并不是为了写模板,而是在STL能够运用系统提供的模板。
2024-02-21 22:59:41
818
原创 C++多态
用sizeof来查看Animal类只占一个字节,因为只有非静态成员函数属于类的对象上,所以speak这个非静态成员函数不属于Animal这个类的对象上,相当于一个空类,占用一个字节。如果子类中不重写函数,那么只是执行了简单的继承,子类也会将父类中的vfptr指针继承下来并且指向父类的虚函数列表。如果发生了重写,子类中的虚函数内部会替换成子类的虚函数地址(从父类中继承下来的,且父类中的虚函数表)在多态中,通常父类中的虚函数的实现是毫无意义的,主要都是调用子类重写的内容。
2024-02-18 22:27:39
1989
原创 ros安装、重要概念、练习
ROS中的服务是一种同步、请求-响应式的通信机制,用于需要即时结果或确认的请求。其中,目标是客户端发送给服务端的动作指令,结果是服务端执行动作后的输出结果,而反馈则是服务端在执行动作过程中定期发送给客户端的状态信息。客户端发送动作的目标给服务端,服务端则执行该动作,控制机器人达到目标,并在执行过程中周期性地反馈状态。话题适用于需要持续、实时数据传输的场景,如传感器数据的发布和订阅。总的来说,ROS中的动作是一种应用层的通信机制,它基于话题和服务实现,特别适用于需要长时间响应和中途反馈的机器人行为管理。
2024-02-17 21:44:23
1931
1
原创 C++继承
继承的好处:可以减少重复代码A类称为 子类 或 派生类B类称为 父类 或 基类public 为继承方式一类是从基类继承过来的(表现其共性)一类是自己增加的成员(表现其个性)
2024-02-08 21:53:37
1660
原创 C++类和对象—友元
若要使该全局函数可以访问私有属性,可以将该函数名复制到类内,并在开头加上friend关键字,结尾加上分号。目的:让GoodGay这个类下的成员函数visit可以访问Building中的私有成员。(说明visit这个函数是Building的友元,而且是在GoodGay这个类下)在程序里,有些私有属性也想让类外特殊的一些函数或者类进行访问,就需要用到友元技术。全局函数无法访问类中的私有属性(私有属性只能在类内访问)目的:让一个类可以访问另一个类中的私有成员,让一个函数或者类访问另一个类中私有成员。
2024-02-04 15:59:34
306
1
原创 C++对象模型和this指针
如要要修改常函数中的某些值,在属性前加mutable关键字,加了之后在常对象和常函数中都可以修改该值。在成员p调用showPerson函数时this指针已经指向了p所以不可再修改this指针指向的值。非静态成员变量在对象创建后才有效,这里创建的对象*p为空,非静态成员变量无效。在成员函数后面加const,修饰的是this指针,让指针指向的值也不可以修改。this是指向p2的指针,而*this指向的就是p2这个对象本体。this指针的本质是指针常量 指针的指向是不可以修改的。
2024-02-03 22:06:46
355
1
原创 C++类和对象—对象特征
如将对象创建在main函数中,对象P并不会被立即释放,所以暂时没有引用析构函数,在按任意键继续以后,程序结束,才将对象释放。由输出结果,构造函数执行完之后立刻执行析构函数再输出“aaaaa”,可见,执行结束后系统立即回收了匿名对象。当前执行结束后,系统会立即回收匿名对象,因为匿名对象没有名,所以后面无法继续使用。4.程序在调用对象的时候会自动调用构造,无需手动调用,而且只会调用一次。4.程序在对象销毁前会自动调用构析,无需手动调用,而且只会调用一次。如上图,p3是一个拷贝函数,不可再用来初始化匿名对象。
2024-01-29 20:30:07
483
原创 24.1.26C++学习
作用:将一段经常使用的代码封装起来,减少重复代码一个较大的程序,一般分为若干个程序块,每个模块实现特定功能五个步骤:a.返回值类型b.函数名b.参数列表d.函数体语句e.return表达式返回值类型与return表达式一致。
2024-01-29 14:51:29
316
原创 24.1.22C++学习
第二种定义方式:如果在初始化数据的时候,没有全部填写完,会用0来填补剩余数据定义数组时必须有初始长度注意:可以省去行数不可省去列数作用:将一段经常使用的代码封装起来,减少重复代码一个较大的程序,一般分为若干个程序块,每个模块实现特定功能五个步骤:a.返回值类型b.函数名b.参数列表d.函数体语句e.return表达式返回值类型与return表达式一致。
2024-01-29 14:50:38
493
原创 24.1.21c++学习
添加一行代码:srand ((unsigned int )time(NULL));让随机数随着当前系统时间随机生成,此代码需要引入头文件:#include <ctime>来获取系统时间。注意:c++中三目运算的结果可以赋值给其他变量,同时三目运算返回的是变量可以继续被赋值。遇到continue不执行语句3,而是开始下一次循环,执行语句1、2。含义:如果表达式1为真,执行表达式2,否则执行表达式3的语句。若要生成1~100—>0+1~99+1。特点:外层循环执行一次,内层循环一周。作用:执行满足条件的语句。
2024-01-29 14:50:05
744
原创 24.1.18Linux学习+练习题
在命令模式下输入 :1,$s/linux/123/g将整个文本的Linux替换为123。首先需要输入命令sudo snap install tree下载tree。2、环境变量 PATH。注意-C中的C 为大写。4、自行设置环境变量。
2024-01-29 14:47:23
219
原创 robocup环境安装
把JMU-Robocup-train文件夹中的SimSpark.tar.gz移动到主目录下,右键点击“提取到此处解压”移动RoboViz源码包:把JMU-Robocup-train中的RoboViz.tar.gz,右键点击提取到此处解压。MON="/home/用户名/RoboViz/bin/roboviz.sh"模糊的球场成功打开则说明初步安装成功,继续进行以下步骤,打开清晰球场。1、检查前面的依赖是不是都装好了,不确定就回去重新来一遍。Ctrl+Alt+T打开终端按顺序执行以下命令。
2024-01-29 14:46:15
429
原创 24.1.17Linux学习
a.在VMware Workstation的 编辑 -虚拟网络编辑器-VMnet8。设置子网IP为:192.168.88.0到192.168.88.254。需输入 apt -y install net-tools 安装使用。首先下载安装namp:apt -y install nmap。(1)在VMware Workstation中配置固定IP。执行ifconfig即可看到固定ip地址。在windows系统中配置固定IP。将“dhcp”改为“static”查看某一ip的端口占用情况。一、IP地址、主机名。
2024-01-18 09:04:14
385
1
原创 24.1.15linuxxuex
(2)新装的Ubuntu下无法切换root用户,因为默认root用户没有开启,需要输入命令sudo passwd root 设置root用户密码,即可切换。输入命令 gcc -o test test.c 进行编译(test是要输出的文件名,test.c是要编译的文件名)若此文件属于我,但无权力修改到其他用户和用户组,需要切换到root用户。(1)通过命令 apt -y install ntp 来安装。如含有空格,加双引号,不加双引号则报错:”额外的操作数“输入i,进入编辑模式,开始编写程序。
2024-01-15 21:20:40
358
1
原创 robocup环境配置
把JMU-Robocup-train文件夹中的SimSpark.tar.gz移动到主目录下,右键点击“提取到此处解压”移动RoboViz源码包:把JMU-Robocup-train中的RoboViz.tar.gz,右键点击提取到此处解压。MON="/home/用户名/RoboViz/bin/roboviz.sh"模糊的球场成功打开则说明初步安装成功,继续进行以下步骤,打开清晰球场。1、检查前面的依赖是不是都装好了,不确定就回去重新来一遍。能打开更清晰的球场界面即成功(如下图)(1)1、下载文件夹。
2024-01-15 13:43:08
528
1
原创 24.1.14学习记录
解决:ctrl+alt+delete,进入任务管理器,左键,结束进程。(2)linux基础命令(以下截图来自b站IT黑马网课)(1)安装虚拟机安装错误无法退出。(6)为普通用户配置sudo认证。rm 用于删除文件、文件夹。su和exit切换账户。which 查找命令。
2024-01-15 10:36:43
434
1
原创 24.1.13
解决:(1)对照说明找不同,发现复制到文件夹里的文件类型不同,重新复制文件。(2)系统上全局禁用了虚拟打印功能,虚拟机无法使用打印功能,无法打印。编辑 -> 首选项 里 启动虚拟打印机,将打印功能开启。(1)虚拟机快照:更改虚拟机后可复原到快照时的状态。ls [-a -l -h] [linux路径]问题:打开虚拟机后,黑屏,只有一个光标闪烁。a. 命令、选项、参数之间有空格。相对路径绝对路径和特殊路径。c. -h 不能单独使用。b.选项可以组合使用。
2024-01-13 21:07:11
459
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅