- 博客(44)
- 收藏
- 关注
原创 HCL-MTC、HiTIN
本周一开始任务是复现HCL-MTC这个模型,但是失败。重新查找相关模型,找到了HiTIN模型,能够实现多层级多标签任务,可以适配本问答系统,且该模型不仅仅适配两层级的多标签任务,对之后的可能扩展有帮助。本周只做到了简略解读论文,了解基本的处理步骤。
2025-10-25 22:54:06
600
原创 问答-多层多标签-HCL-MTC、M3C-HG
本文主要介绍了近期查阅的两篇多标签文本分类相关论文。HCL-MTC(2025)提出层级对比学习模型,通过父子节点相关性损失和不同父节点区分性损失优化标签预测,在Scientific Reports发表。M3C-HG(2024)则采用超图方法处理多模态数据,包含特征提取、关系挖掘等阶段。作者认为HCL-MTC实验效果优于此前模型,同时完成了项目csv格式的调整工作。两篇论文均未深入研读,仅作初步了解。
2025-10-15 16:04:25
1059
原创 问答-多标签分类模型-HiAGM
重新理顺系统逻辑结构,主要侧重于查找学习多标记问题的模型,调研了一些基准模版、深度学习模型,接着搜索到了HiAGM模型并发表阅读论文,认为他的变种模型HiAGM-TP比较适合当前的多层次多标签的系统。在完成多标记问题后,开始搜索关键词的识别模型,了解到原先使用的TextRank为抽取式方法,如果要生成三级标签可能需要生成的能力,经查找找到了的相关论文,但发表时间为2017,接下来需要查找更新的模型。
2025-09-23 21:22:44
729
原创 问答-多标签引用
关键词实现:分类时,提取出的关键词直接与标签对比,关键词分数为提取的关键词与标签的重叠程度分数=((提取的关键词)∩(标签))/max(提取关键词词数,1)无重叠时关键词分数是0,有1个词重叠关键词分数是1将关键词权重调整到15%,降低影响目录1. 评分调整2. 预测多标签3. 总结多标签引入后,能够在终端正确输出多标签,分析了要怎样存储结果比较好。
2025-08-15 15:46:37
294
原创 问答-实现TextRank + 问题分类
候选一级标签: [('道理', 0.6594605436445109), ('修行', 0.6436407618586859), ('生活', 0.6339292906486615)]最终预测: {'level1': '道理', 'level2': '天道'}最终预测: {'level1': '修行', 'level2': '佛家'}最终预测: {'level1': '修行', 'level2': '佛家'}预测结果: {'level1': '修行', 'level2': '佛家'}
2025-08-04 22:43:03
990
原创 问答-TextRank优化预处理关键词
对源代码的预处理(分词、关键词提取、词向量生成)模块进行优化,主要实现模型性能提升,包括但不限于各子模块的不同实现方式、新的算法框架等。
2025-07-29 18:51:52
716
原创 机器学习week3-分类、正则化
模型的复杂度较低,无法捕捉到数据中的关键特征和潜在规律,模型在训练、测试数据上的表现都很差,高偏差(High Bias)对于梯度下降迭代最小化代价函数,repeat和正则化线性回归相同,只是各自的 f(x) 函数表达式不同。:模型在训练数据上表现良好,但在新的、未见过的数据上表现不佳,高方差(High Variance)和线性回归相比,repeat部分对 b 的更新没变化,符合正则化试图缩小参数 wi ,不改变 b。正则化在每次迭代的作用:更新wj时,先✖一个略小于1的数,稍微缩小wj值,再减去。
2025-07-21 14:36:58
713
原创 问答-基于BERT与混合检索问答系统代码解读
是一个基于 Flask 的 Web 应用,提供了问答系统的前端交互和后端 API 服务。:返回主页。/submit:返回提交页面。/search:处理搜索请求,调用方法进行搜索,并返回搜索结果。:处理问题提交请求,对提交的问题进行验证,若问题不存在则将其添加到问答文件和内存中,并更新问题向量。# .../searchPOST,适合传输大量数据、复杂的搜索条件功能:处理用户的搜索请求,返回匹配的问答结果# ...POST(用于向服务器提交数据)
2025-07-21 14:30:30
779
原创 问答-基于BERT与混合检索问答系统
本周完成了戴雄斌学长的中华心法问答系统的复现,对其中的一些方法实现基本了解,了解了多层BERT向量融合、混合检索算法、三层去重的机制等方法的实现。
2025-07-15 15:17:58
610
原创 机器学习week2-线性回归加强
将特征值除以最大值:如果一个特征x1 的取值范围是300 到 2000,那么一种特征缩放的方法就是除以最大值,将x1/2000,缩放后x1的取值范围在0.15到1之间。选择学习率时,可以先选一个很小的学习率 0.001,选择三倍的学习率 0.003,再次三倍 0.01,根据学习曲线变化,得到一个很小、很大的学习率,再选择适中学习率。将数据的不同特征/变量转换到相同或相近的数值范围的过程,比如把所有特征缩放到 [0,1] 或标准化为均值为0、方差为1。调试时将学习率设置非常非常小,代价仍增加,则代码错误。
2025-07-11 20:41:49
389
原创 week1-初步了解
赋予计算机在没有明确编程的情况下进行学习的能力的研究领域。监督学习:x->y映射,提供学习算法示例以供学习;有输入x、输出标签y回归:无限可能数字预测一个数字分类:有限的产品类品预测一种无监督学习:在数据集中找到一些结构/模式进行分组;仅有输入标签x聚类算法:获取没有标签的数据并自动分组数据到集群中异常检测降维:将大数据集压缩成一个小的数据集同时丢失尽可能少的信息。
2025-07-06 15:46:32
349
原创 5 二叉树的非递归遍历
给定一棵二叉树的括号表示,请构造该二叉树的二叉链存储结构,并采用非递归算法对该二叉树进行先序、中序和后序遍历。要求从键盘读入一个括号表示的二叉树字符串,然后输出它们的先序遍历序列、中序遍历序列和后序遍历序列。
2024-05-06 23:53:55
848
原创 1 先序和中序构造二叉树 按层遍历二叉树
用先序和中序序列构造一棵二叉树(树中结点个数不超过10个),通过用队记录结点访问次序的方法实现对二叉树进行按层遍历,即按层数由小到大、同层由左到右输出按层遍历序列。
2024-05-06 23:50:53
971
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅