- 博客(5)
- 问答 (6)
- 收藏
- 关注
原创 HTML表格压缩——突破大模型Token限制
Token节省平均减少65-80% Token占用解决大模型上下文限制问题结构保留100%还原复杂合并关系多层表头关系完整保留模型友好JSON结构可直接输入模型减少模型解析HTML负担提升表格理解准确率。
2025-06-07 10:06:47
1871
原创 如何构造选择题进行垂域大模型微调
目前有前辈整理的专业领域QA对,但是质量不能算太好,模型效果也有提升的空间。在垂域大模型微调中,QA对通常能够带来更好的生成能力和上下文理解能力,特别是在需要生成详细回答的场景中。选择题则更适合需要推理和选择的场景,能够提高模型的准确性和推理能力。生成高难度选择题,增强模型判断答案完整性的能力,增强模型判断关键参数正确性的能力。在构造选择题之前,我们的先要明白什么样的选择题对于大模型微调之后的效果是有提升。4. 原答案基于术语库的语义相似错误 / 复述版本基于术语库的语义相似错误。
2025-05-28 11:02:18
420
原创 大模型预训练的数据清洗——fasttext+datatrove
最近要做垂直领域大模型的预训练,准备收集1B tokens的专业领域文本数据。简单介绍一下,fasttext是用于领域分类的小模型,datatrove提供了pepiline处理整个数据清洗的流程,里面做了分布式计算和内存调优,在处理大数据的时候有明显优势。数据清洗的流程是:专业领域关键词过滤——fasttext领域分类过滤。整个流程都在datatrove的pipeline中运行。借此文记录这半个月的实习工作内容。
2025-05-14 17:53:15
912
原创 启动项目时,echarts渲染失败,在created,mounted,updated中。
用echarts做报表的时候,只能通过按钮的形式启动报表。无论把echarts.init放在created,mounted还是updated中都无法完成自启动。echart报错:TypeError: Cannot read properties of null (reading ‘getAttribute‘)“数据undefined等等报错。 附上完整代码:...
2022-06-09 09:30:14
1424
原创 解决@DateTimeFormat失效,指定日期时间格式失效
类型 异常报告消息 Failed to convert value of type 'java.lang.String' to required type 'java.util.Date'; nested exception is java.lang.IllegalStateException: Cannot convert value of type 'java.lang.String' to required type 'java.util.Date': no matching editors or
2022-05-07 16:10:55
1560
空空如也
模型训练语料——文本修复
2025-07-21
怎么解决tensorflow卸载失败(语言-python)
2022-02-27
js New Date()中时间不能直接比较的问题
2022-05-24
idea中关于数据库以order作为表名引发的问题。
2022-05-05
SQL1066 - Not unique table/alias: 'project'
2021-12-25
报错Parse error: syntax error, unexpected '->'
2021-12-26
sql delete如何删除非int数据
2021-12-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人