
大模型
文章平均质量分 92
seetimee
这个作者很懒,什么都没留下…
展开
-
程序员窃喜!卡了大模型脖子的Json输出,OpenAI终于做到了100%正确
默认情况下,大模型在进行token输出时,可以在词汇表中选择任意一个词汇,作为下一个输出token。而在使用动态的约束解码技术后,大模型在下一个token输出时,便增加了一些约束,将模型限制在有效的token内,而不是所有token。很多人说,为什么非要纠结 JSON 格式的输出,我用的挺好的,啥 JSON 格式都没见过,这种要么就是用的不多,要么就不是做开发的!但很明显,93%的准确率也就意味着7%的不可靠,对于开发人员来说,不是100%的准确就是不够用的,所以OpenAI又用了第二个方法。原创 2024-08-08 10:12:29 · 770 阅读 · 0 评论 -
LLama 405B 技术报告解读
LLama 405B 技术报告解读果然传的消息都是真的,meta在24号凌晨发布了llama 3的405B版本,这次还是做一个技术报告解读。值得一提的是,在技术报告的开头,meta特意强调了一个 Managing complexity,大意是管控复杂度。为什么没用MoE却弄个405B的dense?为什么没用PPO只用DPO?meta给的解释是:Managing complexity,大意就是这样简单吧…评测结果如下,这个结果跟当初网上传的那个版本还是有一定出入的,没有到摁着GPT4o锤的程度。况原创 2024-07-25 09:07:29 · 1809 阅读 · 0 评论 -
书生·浦语2.5开源,推理能力再创新标杆
2024 年 7 月 3 日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5(InternLM2.5)。相比上一代模型,InternLM2.5 有三项突出亮点:推理能力大幅提升,在部分维度上甚至超越十倍量级的 Llama3-70B;支持 1M tokens 上下文,能够处理百万字长文;具有强大的自主规划和工具调用能力,比如可以针对复杂问题,搜索上百个网页并进行整合分析。原创 2024-07-07 23:28:21 · 1341 阅读 · 0 评论