两大视觉语言模型技术架构解析

上月在某中心年度开发者大会上,其云服务部门发布了两款新增的Titan基础模型,均支持文本与图像间的相互转换。

多模态嵌入模型现已通过某中心基础平台开放,用户可上传自定义图像集,并通过文本、相关图像或两者组合进行检索。该模型生成的数据表征还可作为下游机器学习任务的输入。

图像生成模型(预览版)是基于照片和标题训练的生成式AI模型,能够生成逼真图像。该模型同样支持文本或图像输入,并输出一组对应图像。

模型架构

两款模型采用不同架构但共享文本编码器组件:

  • 嵌入模型配备文本编码器和图像编码器,通过对比学习在共享多维空间中生成向量表征
  • 图像生成器使用两个文本编码器副本:一个直接向图像生成模块传递文本嵌入,另一个通过预测图像嵌入辅助生成
  • 二级图像生成模块对初始输出进行超分辨率处理,提升图像分辨率并改善图文对齐效果

数据预处理

模型性能的关键在于训练数据的精细准备:

  1. 去重处理:采用感知哈希技术有效识别重复图像,避免默认图像过度代表问题
  2. 质量筛选:通过图像质量分类器模拟人类审美判断,仅保留阈值以上的高质量图像
  3. 标题对齐:使用专用标题生成器对部分训练样本进行重新标注,增强图像内容描述准确性
  4. 安全措施:训练数据经过内容审核,生成图像包含识别合成内容的隐形数字水印

模型优化

图像生成模型在清洗后的数据集上进行预训练后,还针对高质量图像样本进行微调,显著提升图文对齐度并减少图像伪影。目前研发团队正致力于进一步提升生成图像的分辨率。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值