- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 Uncert-CoT: 计算不确定性判断是否启用CoT
CoT提高了大模型解决复杂问题的能力,但在实践中CoT也存在“过度思考”的问题,本文通过计算“不确定性”来决定是否有必要启用CoT,有效地改善了此问题
2025-03-26 22:34:49
320
原创 RAG系统中的隐性噪声:文档格式、语言风格对知识性问答效果的影响
此工作第一次探讨了隐性噪声对RAG系统的影响,并发现当前SOTA模型也存在类似缺陷,开启了新的研究方向,这启示我们在做RAG系统时,不仅要规避参考文档中的误导信息,也不能忽视语言风格、格式等非内容特性至于上述鲁棒性缺陷的原因,本文倒是没有做深入探讨目前对此工作的了解仅限于发表的论文,git上还是个空仓库,相关细节未知,huggingface的人正在催更。
2025-03-11 00:05:26
1218
原创 大模型推理加速:投机算法与EAGLE-3介绍
近期EAGLE-3发布,大模型推理加速能力更上一层楼。此工作是EAGLE系列的延展,所以本文主要对EAGLE等大模型推理加速方案做简单梳理,然后再介绍EAGLE-3的改进思路与效果
2025-03-09 19:25:04
1002
原创 UPFT:使用前缀微调节省95%的训练开销?AI Lab新作
此工作提出了一种新的大模型自迭代方法,使训练开销急剧下降,同时也保持了与有监督微调方法持平的准确性如果我们有一批新的问题集,可考虑使用此方法快速进行迭代优化,并且无需标注数据;从实验结果来看,即使有条件打标注,此方法的准确性也更好;但此工作的有些实验结论还很反直觉,方法论推导部分也只是使用数学语言梳理了动机和优化方向,并不能solid地推导出前缀学习的优越性,实验分数差距也没有很大。此外测试数据都是思考路径较短的数学题,方法可迁移性存疑;总之还需要进一步探索和验证。
2025-03-08 02:47:50
329
原创 PowerAttention: 更准确高效的静态稀疏注意力
此工作提出了一种新的大模型静态稀疏注意力模式,实现简单,实验结果证明了其有效性。此方法本质上是让交互token的选择更平均,牺牲了部分近距离直接交互,换取了更多远距离间接交互,从实验结果和视野范围可视化来看,这样的置换是划算的。
2025-03-08 02:23:40
1420
原创 选择性语言模型(SLM)-选择更合适的token做预训练
Not All Tokens Are What You Need for Pretrain. 选择性语言模型(SLM)-选择更合适的token做预训练
2025-03-06 16:18:58
266
几个jar包:org.com、fastjson、httpclient、httpcore、jetty-util
2019-07-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人