今年四月,公司决定在当前控制器平台中集成语音识别和图像处理功能,以把握Deepseek引领的AI热潮。由于我硕士期间专攻机器学习方向,这个项目就交给了我。虽然此前我毫无硬件开发经验,但这次机会让我得以系统学习完整的嵌入式开发流程。现将项目心得和踩坑经验整理如下,供大家参考讨论。
-
背景
当前注塑机技术已日趋成熟,行业创新重点正从机械结构转向软件控制系统。为保持竞争优势,企业需要持续进行前瞻性布局。值得注意的是,嵌入式设备在汽车车机领域的成功应用已获得市场验证,其衍生功能必将向更多行业渗透。
从市场竞争、营销策略和技术革新三个维度来看,人工智能与机械设备的深度融合已成为不可逆转的时代趋势。 -
应用场景
语音识别分为三个方面:输入法的语音转文本、指令关键词识别和人机语音交互语音转文本:
车间设备在运行期间配备了记事功能,操作人员可以随时记录数据或添加备注。相比手动输入,语音录入能大幅提升工作效率。关键词识别:
系统可通过识别用户指令关键词(如"切换"、“修改”、“某页面”、"某参数"等)来执行对应功能操作。人机语音交互:
端到端语音交互系统的工作流程如下:首先识别用户语音输入并将其转换为文本,然后将文本通过HTTP/HTTPS协议发送至AI对话模型接口(如DeepSeek API),获取回复文本后通过语音合成(TTS)输出,完成人机交互闭环。
可实现以下应用场景:
1.作为快速查询工具,用于获取机器操作手册和注塑机使用方法
2.作为产品展示功能,演示智能语音交互能力图像处理主要分为人脸识别和内部运行监控(开模检测等),图像识别的网上资源非常丰富,这里不做赘述
-
难点
a) 我在硬件操作方面缺乏经验,比如镜像烧写和端口设置等基础操作;
b) 由于采用的是国外开发板,相关教程都是英文文档,收集整理适合自己需求的内容比较耗时;
c) 软件方面,TI官方只提供了图像处理示例,需要自行参考开发语音识别功能,增加了实现难度;
d) 部署过程中,经历了虚拟机编译和开发板推理的多次调试及问题排查;
e) 未来应用可能还需解决车间收音效果优化、关键词指令集配置以及云数据库搭建等技术问题。