AI工具
文章平均质量分 65
taopi2024
10+年华为工作经验,无线飞虎队资深成员,资深软件工程师、高级架构师。
初创公司两年半leader经历,作为部门经理组建20人开发团队,作为项目经理,带领团队从零到一快速开发实现功能,负责编写实现了基础设施层、重点业务功能的核心代码。
现创办武汉猿核信息科技有限公司,承接各类软件业务,欢迎合作洽谈。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于asr的所见即可说方案
2、语音下达包含热词的指令 --> asr平台返回消息和语音 --> 根据asr的框架解析出意图 --> 根据意图判断是所见即可说指令,并解析出热词 --> 根据ocr解析结果,获取对应热词的坐标 --> 模拟点击 --> 点击特效。那么是否可以在前端页面每次切换时,只作一次截屏+ocr+热词上传,如果是只在当前应用内部的页面,是可以简单做到的,前端调用一个接口就行。所以,这也是一个折衷的普适方案,而且延时1s不是那么明显,等AI语音助手说完话,在作第二轮语音交互,也很自然。此方案,我认为还是偏过渡性质。原创 2025-02-07 23:24:07 · 856 阅读 · 0 评论 -
打通“科大讯飞插件asr”到“辅助点击功能”的流程
现在的设计是main activity创建时启动了asr的语音服务VoiceRecognitionService和辅助服务AccessibilityVoiceCtrlService,前者会监控语音输入,转换为热词,后者会监控界面,实时获取所有view节点的文本。一般用法是客户端给服务端发消息,而这里需要AIDL服务端VoiceRecognitionService主动给客户端AccessibilityVoiceCtrlService发消息,可以用AIDL Callback来实现。原创 2024-09-28 23:26:27 · 819 阅读 · 0 评论
分享