上月在某中心年度开发者大会上,其云服务部门发布了两款新增的Titan基础模型,均支持文本与图像间的相互转换。
多模态嵌入模型现已通过某中心基础平台开放,用户可上传自定义图像集,并通过文本、相关图像或两者组合进行检索。该模型生成的数据表征还可作为下游机器学习任务的输入。
图像生成模型(预览版)是基于照片和标题训练的生成式AI模型,能够生成逼真图像。该模型同样支持文本或图像输入,并输出一组对应图像。
模型架构
两款模型采用不同架构但共享文本编码器组件:
- 嵌入模型配备文本编码器和图像编码器,通过对比学习在共享多维空间中生成向量表征
- 图像生成器使用两个文本编码器副本:一个直接向图像生成模块传递文本嵌入,另一个通过预测图像嵌入辅助生成
- 二级图像生成模块对初始输出进行超分辨率处理,提升图像分辨率并改善图文对齐效果
数据预处理
模型性能的关键在于训练数据的精细准备:
- 去重处理:采用感知哈希技术有效识别重复图像,避免默认图像过度代表问题
- 质量筛选:通过图像质量分类器模拟人类审美判断,仅保留阈值以上的高质量图像
- 标题对齐:使用专用标题生成器对部分训练样本进行重新标注,增强图像内容描述准确性
- 安全措施:训练数据经过内容审核,生成图像包含识别合成内容的隐形数字水印
模型优化
图像生成模型在清洗后的数据集上进行预训练后,还针对高质量图像样本进行微调,显著提升图文对齐度并减少图像伪影。目前研发团队正致力于进一步提升生成图像的分辨率。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

1907

被折叠的 条评论
为什么被折叠?



