Spring AI 多模态实战:识别并翻译图片转语音

最新推荐文章于 2025-07-25 11:31:52 发布

程序猿小冬瓜

最新推荐文章于 2025-07-25 11:31:52 发布

阅读量292

点赞数 1

CC 4.0 BY-SA版权

文章标签：语音识别人工智能

本文链接：https://blog.youkuaiyun.com/renhd_1987/article/details/148954698

大家好，我是小冬瓜。像我这种英语水平比较差的在阅读外语文档时，如果遇到是纯文本还好说，可以复制粘帖到翻译软件，但是遇到图片或者pdf的时候就比较麻烦了，今天用spring-ai 多模态模型写个小demo，专门解决这种问题。废话不多说，直接上代码。

需求目标

上传图片，实时识别图片中的文字并翻译，语音输出。

输入

输出音频流

输出音频

代码示例

pom文件

    <dependencies>
  <dependency>
   <groupId>com.alibaba.cloud.ai</groupId>
   <artifactId>spring-ai-alibaba-starter-dashscope</artifactId>
  </dependency>
  <dependency>
   <groupId>org.springframework.boot</groupId>
   <artifactId>spring-boot-starter-web</artifactId>
  </dependency>
  <dependency>
   <groupId>org.projectlombok</groupId>
   <artifactId>lombok</artifactId>
  </dependency>
  <dependency>
   <groupId>com.alibaba</groupId>
   <artifactId>fastjson</artifactId>
  </dependency>
 </dependencies>

由于使用的语音输出模型API不符合openai规范，本文使用百炼大模型SDKspring-ai-alibaba-starter-dashscope

配置文件

spring:
  application:
    name: multi-modality
  ai:
    dashscope:
      api-key: ${DASHSCOPE_API_KEY}
      chat:
        options:
          multi-model: true
          model: qwen-vl-max
      audio:
        synthesis:
          options:
            model: sambert-zhiming-v1

图片识别使用qwen-vl-max模型，语音合成使用sambert-zhiming-v1模型（诙谐男声），这里特别注意，要开启multi-model,spring.ai.dashscope.chat.options.multi-model=true

Java代码

/**
 * @author 任海东
 * @since 2025年6月27日
 */
@RestController
@SpringBootApplication
@AllArgsConstructor
@Slf4j
public class MultiModalityApplication {

 private final DashScopeChatModel chatModel;

 private final DashScopeSpeechSynthesisModel speechModel;

 /**
  * @param args
  */
 public static void main(final String[] args) {
  SpringApplication.run(MultiModalityApplication.class, args);
 }

 @PostMapping("/img2voice")
 public ResponseEntity<byte[]> transfer(final MultipartFile file,
   @RequestParam(value = "msg", defaultValue = "") final String msg) {
  final String prompt = """
    请根据用户要求：%s 识别图片内容并输出key为content的json字符串。
    """.formatted(msg);
  final UserMessage message = UserMessage.builder().text(prompt)
    .media(new Media(MimeTypeUtils.IMAGE_PNG, file.getResource())).build();
  final String chatResp = chatModel.call(message).replace("```json", "").replace("```", "").trim();
  log.info("识别结果: {}", chatResp);
  final SpeechSynthesisResponse speechResp = speechModel
    .call(new SpeechSynthesisPrompt(JSON.parseObject(chatResp).getString("content")));
  return ResponseEntity.ok().contentType(MediaType.parseMediaType("audio/mpeg"))
    .body(speechResp.getResult().getOutput().getAudio().array());
 }

}

调用

curl -F "file=@IMG_1018.JPG" -F "msg=将图片中推文翻译成中文" -o output.mp3 http://localhost:8080/img2voice
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  235k  100 85485  100  151k  10116  18380  0:00:08  0:00:08 --:--:-- 20223

看上去是不是很简单，但选择使用模型的时候坑还不少，亲自动手才知道哦，关注我，一起学习交流！