Spring AI（三）多模态支持（豆包）

最新推荐文章于 2025-09-15 16:14:06 发布

原创

最新推荐文章于 2025-09-15 16:14:06 发布 · 270 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

多模态大型语言模型（LLM）的特性使模型能够结合图像、音频或视频等其他模态来处理和生成文本。

所以首先选择的模型就必须支持多模态，这里用的是，豆包的模型。DeepSeek目前好像不支持。

doubao-seed-1-6-vision-250815

其实在现在的版本来说，还是比较简单的。

    /**
     * 多模态支持
     * @param msg
     * @param response
     * @return
     */
    @GetMapping("/multimodality")
    public Flux<String> multimodalityChat(String msg, HttpServletResponse response){
        response.setCharacterEncoding("UTF-8");
        return chatClient.prompt()
                .user(u -> u.text(msg)
                        .media(MimeTypeUtils.IMAGE_JPEG, new FileSystemResource("C:"+ File.separator+"2c730c4b34be2d3f341caf1f6d4638d2.jpeg"))
                        .media(MimeTypeUtils.IMAGE_JPEG, new FileSystemResource("C:"+ File.separator+"20250708142152-4476a281-7c84-477f-ac01-5fbeb945dfb0.jpg")))
                .stream()
                .content();
    }

发起请求