RWKV 通过几万 token 的 CoT 解决几乎 100% 的数独问题(采用 29M 参数的小模型)

RWKV 做 CoT 特别有优势,因为推理速度和显存占用与上下文无关。即使做几百万 token 的 CoT 也不会变慢或额外消耗显存。

RWKV 社区开发者 @Jellyfish042 训练了一个用于解决数独谜题的专用 RWKV 模型 Sudoku-RWKV ,项目的训练代码数据制作脚本均已开源。

GitHub 仓库:https://github.com/Jellyfish042/Sudoku-RWKV

Sudoku-RWKV 使用 700k 条数独专用的 COT 数据进行训练,数据总量约 25B(250 亿) token。这些数据均使用仓库内的 generate_sudoku_data.py脚本自动生成。

100% 准确率

在 Jellyfish042 的测试中,Sudoku-RWKV 对最高 50 个空单元格的数独实现了 100% 的准确率

perfect solution rate

token usage

高达 50 个空单元格的数独,解题难度会呈指数上升,而 RWKV 模型通过几万个 token 的 CoT 仍然可以实现近乎 100% 的解题率。

什么是数独

数独是一种逻辑游戏,玩家需要根据 9×9 盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含 1-9,不重复。

what-is-sudoku

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理。

  • RWKV 中文官网(有多篇多模态论文):https://rwkv.cn/
  • RWKV-5/6(Eagle & Finch)论文: https://arxiv.org/abs/2404.05892
  • RWKV-4 论文: https://arxiv.org/abs/2305.13048

欢迎大家加入 RWKV 社区!可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

  • QQ 频道:https://pd.qq.com/s/9n21eravc
  • QQ 交流群:224287095
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值