Qwen 通义千问 14B 模型,长文本问答效果测试

文章探讨了千问模型在不同配置(如seq_len=2k,max_position_embedding=8k)下的性能,发现不使用动态NTK时,处理长文本会出现乱码;而使用动态NTK后,模型能适应上万字文本,但需注意8k字以内信息完整。线性插值可避免乱码,但未经微调的回答质量较低。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

千问的config:

seq_len=2k
max_position_embedding=8k

注意,以下实验结果的字数是token数,不是中文字符数。

不使用动态ntk

  • 12000字输入: 乱码
  • 5000字输入:乱码
  • 1500字输入:正常

不使用动态ntk,使用线性位置插值 缩放4倍

  • 12000字输入: 乱码
  • 5000字输入:正常,但废话多,质量低。
  • 1500字输入:正常,但答案错误

不使用动态ntk,使用线性位置插值 缩放2倍

  • 12000字输入: 乱码
  • 5000字输入:乱码
  • 1500字输入:正常,但答案数字正确但小数点错误,文本质量低

使用动态ntk

  • 12000字输入,答案信息在中间位置: 正常,答案正确
  • 12000字输入,答案信息在靠前位置: 正常,答案错误,但有相关信息

使用动态ntk,同时 使用线性位置插值 缩放2倍

  • 12000字输入,答案信息在中间位置: 正常,答案错误
  • 12000字输入,答案信息在靠前位置: 正常,答案错误,后面开始出现乱码

结论:

  • 如果不使用动态ntk,qwen只能适应2k以下文本,否则就输出乱码。
  • 如果使用动态ntk,qwen可以适应上万字文本,且无需微调。
  • 8k是注意力窗口的长度,文本超过8k将会导致丢失8k距离外的信息。
  • 线性插值可以使模型在2k以上文本时,不出现乱码,但是如果不进行微调,回答质量很低。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值