Spring AI 多模态实战:识别并翻译图片转语音

大家好,我是小冬瓜。像我这种英语水平比较差的在阅读外语文档时,如果遇到是纯文本还好说,可以复制粘帖到翻译软件,但是遇到图片或者pdf的时候就比较麻烦了,今天用spring-ai 多模态模型写个小demo,专门解决这种问题。废话不多说,直接上代码。

需求目标

上传图片,实时识别图片中的文字并翻译,语音输出。

输入

输出音频流

输出音频 

代码示例

pom文件

    <dependencies>
  <dependency>
   <groupId>com.alibaba.cloud.ai</groupId>
   <artifactId>spring-ai-alibaba-starter-dashscope</artifactId>
  </dependency>
  <dependency>
   <groupId>org.springframework.boot</groupId>
   <artifactId>spring-boot-starter-web</artifactId>
  </dependency>
  <dependency>
   <groupId>org.projectlombok</groupId>
   <artifactId>lombok</artifactId>
  </dependency>
  <dependency>
   <groupId>com.alibaba</groupId>
   <artifactId>fastjson</artifactId>
  </dependency>
 </dependencies>

由于使用的语音输出模型API不符合openai规范,本文使用百炼大模型SDKspring-ai-alibaba-starter-dashscope

配置文件

spring:
  application:
    name: multi-modality
  ai:
    dashscope:
      api-key: ${DASHSCOPE_API_KEY}
      chat:
        options:
          multi-model: true
          model: qwen-vl-max
      audio:
        synthesis:
          options:
            model: sambert-zhiming-v1

图片识别使用qwen-vl-max模型,语音合成使用sambert-zhiming-v1模型(诙谐男声),这里特别注意,要开启multi-model,spring.ai.dashscope.chat.options.multi-model=true

Java代码

/**
 * @author 任海东
 * @since 2025年6月27日
 */
@RestController
@SpringBootApplication
@AllArgsConstructor
@Slf4j
public class MultiModalityApplication {

 private final DashScopeChatModel chatModel;

 private final DashScopeSpeechSynthesisModel speechModel;

 /**
  * @param args
  */
 public static void main(final String[] args) {
  SpringApplication.run(MultiModalityApplication.class, args);
 }

 @PostMapping("/img2voice")
 public ResponseEntity<byte[]> transfer(final MultipartFile file,
   @RequestParam(value = "msg", defaultValue = "") final String msg) {
  final String prompt = """
    请根据用户要求:%s 识别图片内容并输出key为content的json字符串。
    """.formatted(msg);
  final UserMessage message = UserMessage.builder().text(prompt)
    .media(new Media(MimeTypeUtils.IMAGE_PNG, file.getResource())).build();
  final String chatResp = chatModel.call(message).replace("```json", "").replace("```", "").trim();
  log.info("识别结果: {}", chatResp);
  final SpeechSynthesisResponse speechResp = speechModel
    .call(new SpeechSynthesisPrompt(JSON.parseObject(chatResp).getString("content")));
  return ResponseEntity.ok().contentType(MediaType.parseMediaType("audio/mpeg"))
    .body(speechResp.getResult().getOutput().getAudio().array());
 }

}

调用

curl -F "file=@IMG_1018.JPG" -F "msg=将图片中推文翻译成中文" -o output.mp3 http://localhost:8080/img2voice
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  235k  100 85485  100  151k  10116  18380  0:00:08  0:00:08 --:--:-- 20223

看上去是不是很简单,但选择使用模型的时候坑还不少,亲自动手才知道哦,关注我,一起学习交流!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值