自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 问答 (6)
  • 收藏
  • 关注

原创 HTML表格压缩——突破大模型Token限制

​Token节省平均减少65-80% Token占用解决大模型上下文限制问题​结构保留100%还原复杂合并关系多层表头关系完整保留​模型友好JSON结构可直接输入模型减少模型解析HTML负担提升表格理解准确率。

2025-06-07 10:06:47 1871

原创 如何构造选择题进行垂域大模型微调

目前有前辈整理的专业领域QA对,但是质量不能算太好,模型效果也有提升的空间。在垂域大模型微调中,QA对通常能够带来更好的生成能力和上下文理解能力,特别是在需要生成详细回答的场景中。选择题则更适合需要推理和选择的场景,能够提高模型的准确性和推理能力。生成高难度选择题,增强模型判断答案完整性的能力,增强模型判断关键参数正确性的能力。在构造选择题之前,我们的先要明白什么样的选择题对于大模型微调之后的效果是有提升。4. 原答案基于术语库的语义相似错误 / 复述版本基于术语库的语义相似错误。

2025-05-28 11:02:18 420

原创 大模型预训练的数据清洗——fasttext+datatrove

最近要做垂直领域大模型的预训练,准备收集1B tokens的专业领域文本数据。简单介绍一下,fasttext是用于领域分类的小模型,datatrove提供了pepiline处理整个数据清洗的流程,里面做了分布式计算和内存调优,在处理大数据的时候有明显优势。数据清洗的流程是:专业领域关键词过滤——fasttext领域分类过滤。整个流程都在datatrove的pipeline中运行。借此文记录这半个月的实习工作内容。

2025-05-14 17:53:15 912

原创 启动项目时,echarts渲染失败,在created,mounted,updated中。

用echarts做报表的时候,只能通过按钮的形式启动报表。无论把echarts.init放在created,mounted还是updated中都无法完成自启动。echart报错:TypeError: Cannot read properties of null (reading ‘getAttribute‘)“数据undefined等等报错。 附上完整代码:...

2022-06-09 09:30:14 1424

原创 解决@DateTimeFormat失效,指定日期时间格式失效

类型 异常报告消息 Failed to convert value of type 'java.lang.String' to required type 'java.util.Date'; nested exception is java.lang.IllegalStateException: Cannot convert value of type 'java.lang.String' to required type 'java.util.Date': no matching editors or

2022-05-07 16:10:55 1560

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除