背景
最近(2025年3月)出现了几篇Paper,都提到了如何教LLM学会在思考问题时,自己决定什么时候利用外部搜索引擎查资料,来增强其面对更复杂问题下的推理能力,无一例外都使用了RL,下面是每篇论文的分享链接。
【LLM Tool Learning】论文分享:R1-Searcher

【LLM Tool Learning】论文分享:Search-R1

【LLM Tool Learning】论文分享:ReSearch

总结
-
其实看下来,三篇论文的思路以及结论都挺一致的,就是利用外部搜索引擎,通过Mask掉查询内容的Loss,去进行RL,这样子能明显提升模型的推理思考以及准确回答的能力。

最低0.47元/天 解锁文章
531

被折叠的 条评论
为什么被折叠?



