多模态大型语言模型(LLM)的特性使模型能够结合图像、音频或视频等其他模态来处理和生成文本。
所以首先选择的模型就必须支持多模态,这里用的是,豆包的模型。DeepSeek目前好像不支持。
doubao-seed-1-6-vision-250815
其实在现在的版本来说,还是比较简单的。
/**
* 多模态支持
* @param msg
* @param response
* @return
*/
@GetMapping("/multimodality")
public Flux<String> multimodalityChat(String msg, HttpServletResponse response){
response.setCharacterEncoding("UTF-8");
return chatClient.prompt()
.user(u -> u.text(msg)
.media(MimeTypeUtils.IMAGE_JPEG, new FileSystemResource("C:"+ File.separator+"2c730c4b34be2d3f341caf1f6d4638d2.jpeg"))
.media(MimeTypeUtils.IMAGE_JPEG, new FileSystemResource("C:"+ File.separator+"20250708142152-4476a281-7c84-477f-ac01-5fbeb945dfb0.jpg")))
.stream()
.content();
}
发起请求

最低0.47元/天 解锁文章
917

被折叠的 条评论
为什么被折叠?



