LLM论文周报｜来自清华、MetaAI、Nous Research等机构论文研究

原创

于 2023-09-13 11:36:29 发布 · 311 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #LLM #语言模型 #大模型 #深度学习

文章讲述了大模型LLM在解决数学问题、充当优化器、物理理解及图像处理任务中的最新进展，如GPT-3.5的ChatGPT引发的关注，以及来自不同机构的论文展示了LLM在规模、性能和应用方面的创新。

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文，来自清华大学、MetaAI、Nous Research等机构。

为了方便大家阅读，只列出了论文标题、作者、ChatPaper综述等信息，如果感兴趣可点击链接查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1. GPT Can Solve Mathematical Problems Without a Calculator

这篇论文的摘要表明，GPT 可以在没有计算器的情况下解决数学问题。以前的研究通常认为大型语言模型无法在没有使用计算器工具的情况下准确执行多位数乘法运算，特别是乘法 8 位以上的数字，以及涉及小数和分数的运算。然而，本文旨在挑战这一误解。在充足的训练数据下，一个 200 亿参数的语言模型可以准确地执行多位数算术运算，准确率接近 100%，而没有数据泄露，明显超过了 GPT-4（其多位数乘法准确率仅为 4.3%）。此外，文章还展示了他们的 MathGLM（从 GLM-10B 在包含额外多步算术运算和文本描述的数学问题的数据集上进行微调）在 5000 个样品的中文数学问题测试集上取得了与 GPT-4 相似的性能。

链接：https://www.aminer.cn/pub/64fa84403fda6d7f06700708

2. Large Language Models as Optimizers

这篇论文的摘要表明，GPT 可以在没有计算器的情况下解决数学问题。以前的研究通常认为大型语言模型无法在没有使用计算器工具的情况下准确执行多位数乘法运算，特别是乘法 8 位以上的数字，以及涉及小数和分数的运算。然而，本文旨在挑战这一误解。在充足的训练数据下，一个 200 亿参数的语言模型可以准确地执行多位数算术运算，准确率接近 100%，而没有数据泄露，明显超过了 GPT-4（其多位数乘法准确率仅为 4.3%）。此外，文章还展示了他们的 MathGLM（从 GLM-10B 在包含额外多步算术运算和文本描述的数学问题的数据集上进行微调）在 5000 个样品的中文数学问题测试集上取得了与 GPT-4 相似的性能。

链接：

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。