
2个限制对应VITA的2个优势:
-
无唤醒词
-
实时打断
双语instruction tuning
基座为Mixtral-8x7B-v0.1 ,是一个SMoE,但是在中文理解能力上较差
将词汇量从 32000 拓展到了 51747
使用 500万 的双语语料进行指令调优
多模对齐和instruction tuning
视觉模态
图片
使用 InternViT-300M-448px 作为视觉encoder
basic tile size: 448 x 448, training with 1 - 12 tiles,

最低0.47元/天 解锁文章
6684

被折叠的 条评论
为什么被折叠?



