Qwen 通义千问 14B 模型，长文本问答效果测试

最新推荐文章于 2025-03-13 11:12:59 发布

原创最新推荐文章于 2025-03-13 11:12:59 发布

· 2.6k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #nlp

文章探讨了千问模型在不同配置（如seq_len=2k,max_position_embedding=8k）下的性能，发现不使用动态NTK时，处理长文本会出现乱码；而使用动态NTK后，模型能适应上万字文本，但需注意8k字以内信息完整。线性插值可避免乱码，但未经微调的回答质量较低。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

千问的config：

seq_len=2k
max_position_embedding=8k

注意，以下实验结果的字数是token数，不是中文字符数。

不使用动态ntk

12000字输入：乱码
5000字输入：乱码
1500字输入：正常

不使用动态ntk，使用线性位置插值缩放4倍

12000字输入：乱码
5000字输入：正常，但废话多，质量低。
1500字输入：正常，但答案错误

不使用动态ntk，使用线性位置插值缩放2倍

12000字输入：乱码
5000字输入：乱码
1500字输入：正常，但答案数字正确但小数点错误，文本质量低

使用动态ntk

12000字输入，答案信息在中间位置：正常，答案正确
12000字输入，答案信息在靠前位置：正常，答案错误，但有相关信息

使用动态ntk，同时使用线性位置插值缩放2倍

12000字输入，答案信息在中间位置：正常，答案错误
12000字输入，答案信息在靠前位置：正常，答案错误，后面开始出现乱码

结论：

如果不使用动态ntk，qwen只能适应2k以下文本，否则就输出乱码。
如果使用动态ntk，qwen可以适应上万字文本，且无需微调。
8k是注意力窗口的长度，文本超过8k将会导致丢失8k距离外的信息。
线性插值可以使模型在2k以上文本时，不出现乱码，但是如果不进行微调，回答质量很低。

博客等级

码龄5年

31
原创

178
点赞

855
收藏

71
粉丝

关注

私信

热门文章

上一篇：: python-docx 判断表格的边框是实线还是无边框

下一篇：: Windows 安装 flash-attention 和 bitsandbytes

最新评论

torch 下载很慢，pip 安装github上的库很慢，改成http即可
Roboclub: 不知道下载的是不是一个
训练自己的GPT2模型（中文），踩坑与经验
防搞活机: 确实会这样，所以最好eos和pad最好不一样，你可以自己 add_special_tokens
训练自己的GPT2模型（中文），踩坑与经验
一顾倾城h: 大佬我有一个问题，求大佬指教由于GPT2没有pad_token,需要设置一个pad_token，但是如果把pad_token设置为eos_token，根据DataCollatorForLanguageModeling源码： labels = batch["input_ids"].clone() if self.tokenizer.pad_token_id is not None: labels[labels == self.tokenizer.pad_token_id] = -100 他在计算的时候会把eos_token的label值设置为-100，在loss计算的时候屏蔽掉，那么在训练的时候，根本无法学习到这个eos_token，模型还是没有学到如何停下来
T5或GPT等生成模型，如何计算模型输出特定文本的概率？
tian969: 我认为下面这部分说的有问题 '然后模型根据“<pad>”给出第一个token的概率分布，即得到了token_1=“1”的概率，然后根据“<pad>1”给出第二个token的概率分布，即得到了token_2=“2”的概率…' 当产生第一个token的概率分布后, 模型默认采样不是1, 而是其他token的时候, 后续生成第二个token的分布也不是基于"<pad>1"了, 所以这里应该是为了方便计算而进行了假设:"所有token的生成都是相互独立的".
torch 下载很慢，pip 安装github上的库很慢，改成http即可
防搞活机: 现在已经不行了

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。