大家好,我是小冬瓜。像我这种英语水平比较差的在阅读外语文档时,如果遇到是纯文本还好说,可以复制粘帖到翻译软件,但是遇到图片或者pdf的时候就比较麻烦了,今天用spring-ai 多模态模型写个小demo,专门解决这种问题。废话不多说,直接上代码。
需求目标
上传图片,实时识别图片中的文字并翻译,语音输出。
输入
输出音频流
代码示例
pom文件
<dependencies>
<dependency>
<groupId>com.alibaba.cloud.ai</groupId>
<artifactId>spring-ai-alibaba-starter-dashscope</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
</dependency>
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>fastjson</artifactId>
</dependency>
</dependencies>
由于使用的语音输出模型API不符合openai规范,本文使用百炼大模型SDKspring-ai-alibaba-starter-dashscope
配置文件
spring:
application:
name: multi-modality
ai:
dashscope:
api-key: ${DASHSCOPE_API_KEY}
chat:
options:
multi-model: true
model: qwen-vl-max
audio:
synthesis:
options:
model: sambert-zhiming-v1
图片识别使用qwen-vl-max模型,语音合成使用sambert-zhiming-v1模型(诙谐男声),这里特别注意,要开启multi-model,spring.ai.dashscope.chat.options.multi-model=true
Java代码
/**
* @author 任海东
* @since 2025年6月27日
*/
@RestController
@SpringBootApplication
@AllArgsConstructor
@Slf4j
public class MultiModalityApplication {
private final DashScopeChatModel chatModel;
private final DashScopeSpeechSynthesisModel speechModel;
/**
* @param args
*/
public static void main(final String[] args) {
SpringApplication.run(MultiModalityApplication.class, args);
}
@PostMapping("/img2voice")
public ResponseEntity<byte[]> transfer(final MultipartFile file,
@RequestParam(value = "msg", defaultValue = "") final String msg) {
final String prompt = """
请根据用户要求:%s 识别图片内容并输出key为content的json字符串。
""".formatted(msg);
final UserMessage message = UserMessage.builder().text(prompt)
.media(new Media(MimeTypeUtils.IMAGE_PNG, file.getResource())).build();
final String chatResp = chatModel.call(message).replace("```json", "").replace("```", "").trim();
log.info("识别结果: {}", chatResp);
final SpeechSynthesisResponse speechResp = speechModel
.call(new SpeechSynthesisPrompt(JSON.parseObject(chatResp).getString("content")));
return ResponseEntity.ok().contentType(MediaType.parseMediaType("audio/mpeg"))
.body(speechResp.getResult().getOutput().getAudio().array());
}
}
调用
curl -F "file=@IMG_1018.JPG" -F "msg=将图片中推文翻译成中文" -o output.mp3 http://localhost:8080/img2voice
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 235k 100 85485 100 151k 10116 18380 0:00:08 0:00:08 --:--:-- 20223
看上去是不是很简单,但选择使用模型的时候坑还不少,亲自动手才知道哦,关注我,一起学习交流!