AI手机与蓝牙电话的通话声音处理
文章平均质量分 93
limingade
深耕通讯行业多年的行业人士(有事直接加微信聊13691724110,私信查阅不及时)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
手机通话语音离线ASR识别商用和优化方向
至此,本轮Android手机中应用App加载FunASR模型文件和ASR识别的工作暂且告一段落。与2023年末的版本相比,引入了【asr_online】和【punc】模型文件,通过增大App运行内存的方式,提高了ASR识别的响应速度并提高了识别的准确度。总体来说,也算基本达到了预期的效果,初步可以满足试用的需求。原创 2025-07-06 16:56:58 · 1153 阅读 · 0 评论 -
手机FunASR识别SIM卡通话占用内存和运行性能分析
本文中尝试从内存占用和运行性能的角度,分析一下将FunASR的运行动态库以及模型文件,直接加载到Android后在CPU性能、内存耗用方面的使用情况。进而分析Android手机直接使用FunASR模型进行本地解析是否靠谱。从结果上来看,目前选型的模型库和算法,对SIM卡电话通话事后根据录音进行质检方面效果比较理想。原创 2025-07-06 10:37:33 · 931 阅读 · 0 评论 -
手机无网离线使用FunASR识别SIM卡语音通话内容
本文将FunASR的模型文件和调用入口都放入Android手机中,使手机在无网离线使用的情况下,也能实现对SIM卡电话通话中双方语音沟通内容的ASR解析。但是目前看来,将FunASR完全部署到Android手机上,仅利用手机CPU的主频性能,对上行/下行两路语音数据进行ASR文字识别,效果上还是差强人意,有待后续进一步优化和性能提升。原创 2025-07-05 14:35:31 · 1421 阅读 · 0 评论 -
手机无网离线使用FunASR识别手机历史通话录音
本篇章针对不同厂商和型号的手机内置录音的文件,使用FunASR进行语音转文字,将手机中预先录制的通话记录,逐条转换解析出对应的通话语音文字。此部分功能只做了历史通话的ASR转换,有需要的用户可以直接拿来体验和使用。语音文件检测作为FunASR的主要应用场景,它的识别精度准确率和识别效率都还是非常好的。原创 2025-07-05 10:03:44 · 1546 阅读 · 0 评论 -
Android手机无网离线使用FunASR识别麦克风语音内容
本文使用前面几篇文章中阐述的理论,简单的将阿里FunASR的模型装进普通的Android手机中,并使用手机麦克风来体验ASR语音文字识别的效果。经检验,识别的响应速度和文字内容的准确率相当的不错。原创 2025-07-04 17:04:30 · 1300 阅读 · 0 评论 -
阿里FunASR本地断网离线识别模型简析
本文对FunASR断网离线识别模型移植到Android应用进行初步探索,并尝试建立一个能用的手机ASR离线识别的方案。从结果来看,总的来说结果也算勉强能用吧,识别的准确率还算可以。感兴趣的读者朋友可以获取对应的代码和模型文件进行试用和体验。原创 2025-07-04 10:05:26 · 1624 阅读 · 3 评论 -
手机SIM卡通话中随时插入录音语音片段(Windows方案)
本文在原来【拦截手机打电话的声音、根据通话对方声音提取DTMF字符、多级IVR语音导航菜单】等基础之上,在Windows版本的远程“拨号器声音”程序中增加了通话中【随机插播预录语音片段】的功能。可以搭配手机版本的【拨号器SDK-示例App】程序,插入USB蓝牙后,进行协同工作。原创 2025-06-16 09:06:18 · 1234 阅读 · 1 评论 -
手机SIM卡通话中随时插入录音语音片段(Android方案)
前几天有试用的朋友咨询问,既然通话接通后有IVR开场白语音、有IVR语音导航菜单,那能不能实现我正常通话沟通的时候随机插播一个预先录制的语音片段呢?我们分析了一下,正常电话的用户应该是没有这种需求的。但是想想,做起来又不复杂,干脆就“画蛇添足”一番,把这个【随机插播预录语音片段】的功能给添加到界面上。供某些特殊场景有需要的用户,可以直接拿来使用。原创 2025-06-16 08:59:13 · 1426 阅读 · 4 评论 -
App识别安卓系统弹授权框包含某段文字-并自动点击确定按钮
本文将尝试探索Android系统弹出框的识别,并在普通App中增加自动确认使其消失的功能。借助ADB的控制指令,本文的方案可根据弹框标题或内容中包含某个关键字来进行预期弹框类型的判断,识别成功后将自动点击其“确定”或“允许”按钮。通过在普通App中整合此类功能,可快速通过一些因Android授权弹框而阻塞App自动运行的过程,减少了人工行为的干预。在不改变手机操作系统和业务逻辑的情况下,能更大程度的减少操作复杂度。具有一定的现实意义。原创 2025-05-29 18:00:38 · 1088 阅读 · 0 评论 -
手机打电话时由对方DTMF响应切换多级IVR语音菜单(完结)
本文在上一篇的手机上实现了“打电话时由对方DTMF响应切换多级IVR语音菜单”功能的基础之上,锦上添花的增加了多级IVR菜单的上传和下载功能。使同一用户的多个不同的手机设备,能够快捷的使用同样的IVR引导菜单统一对外提供业务和功能服务。这样有利于业务的快速部署并消除服务的体验差异。对业务起到一定程度的帮助。原创 2025-05-22 14:50:48 · 1478 阅读 · 0 评论 -
手机打电话时由对方DTMF响应切换多级IVR语音菜单(话术脚本与实战)
本篇中,我们通过预设的话术脚本,设计了自己的DTMF响应逻辑。并通过在线TTS和语料转换,实现将脚本文字转换为一段一段语音,并将它们成功导入了【蓝牙电话SDK示例App】中进行使用。我们可以通过主界面中对多级IVR菜单的逻辑和响应内容进行编辑,并提供了不用打通电话就可以直接检验和验证IVR菜单的体验效果的途径。另外,由于本篇章的所有的逻辑和代码均属于【示例App】的功能范畴,开源的。感兴趣的读者可以获取源代码,在这个基础上进行修改以适配自己的话术和逻辑。原创 2025-05-22 10:07:07 · 1104 阅读 · 0 评论 -
手机打电话时由对方DTMF响应切换多级IVR语音应答(二)
本篇章中,我们尝试在拨号器SDK的示例App中,通过界面列表的方式,将多级IVR的编辑界面内容给标注出来,使SDK-Demo的App,能够按用户自己的需要,手动编辑各种层级的IVR的DTMF按键响应的语料。从而实现一个完整的“手机SIM卡挂载多级IVR实现主动外呼或来电接听时根据通话对方不同的DTMF按键,实现播放不同IVR语音反馈”的实际功能。原创 2025-05-17 15:58:25 · 1432 阅读 · 0 评论 -
手机打电话时如何将通话对方的声音在手机上识别成文字
我们尝试在蓝牙电话SDK中,引入一些跟AI方向相关的算法和能力。本篇章中,我们想突破传统的业内“端+云”的做法,想仅仅依靠端侧的算力(毕竟智能手机处理性能这么强,存储空间又大)来独立完成ASR语音转文字的功能。目前从实践的结果来看,算法和模型库不给力啊。当前暂时没有发现能够直接移植到手机、且完全不依赖网络,并能够获得比较良好的ASR识别的算法和模型库。原创 2025-05-17 13:00:27 · 1273 阅读 · 0 评论 -
手机打电话时由对方DTMF响应切换多级IVR语音应答(一)
在本篇及后面的几篇,我们将针对多级IVR语音导航的功能,规划出一个可用的界面及操作App出来,使同一个用户,名下所有的手机,都能使用同一套多级IVR语音来进行单机化的部署。(会不会把它引导到云平台上,然后用多并发的方式来实现更加容易?但这个不是本次主题讨论的范畴,我们默认就已经具备了这个云平台功能,本次只讨论单机版)原创 2025-05-05 22:02:21 · 1259 阅读 · 0 评论 -
手机SIM卡打电话时识别对方按下的DTMF按键(二)
本篇章中,我们将DTMF解码器的功能,整合到蓝牙电话SDK,并在其示例app的界面中展示DTMF字符的内容。使SIM卡电话通话时(来电或手机拨打出去)均可在界面中能正常查看到通话的目标手机按下的DTMF按键的字符内容。原创 2025-05-05 09:15:55 · 1084 阅读 · 0 评论 -
手机打电话时电脑坐席同时收听对方说话并插入IVR预录声音片段
本文介绍了Windows电脑上运行的【蓝牙电话SDK示例app】的远程声音坐席的程序。用户可使用本程序,搭配上一篇章的【蓝牙电话SDK示例app】,实现通话过程中自动插播语音片段的能力,最终实现【通话过程中,电脑坐席一边收听对方声音,一边插播IVR预录的语音片段】的实现方案。原创 2025-04-25 17:02:45 · 1614 阅读 · 0 评论 -
手机打电话通话时如何向对方播放录制的IVR引导词声音
本篇章使用该方案的SDK示例app,仅仅通过为Android手机外置一个USB配件的情况下,拦截电话通话的事件和语音数据,进行数据识别和语音二次加工。实现手机app在电话通话过程中插播预先录制的开场白等语音片段的功能。原创 2025-04-25 00:08:51 · 1502 阅读 · 0 评论 -
Android应用app实现AI电话机器人接打电话
我们在手机厂商的AI通话的功能之外,拓展了一种不受手机厂商和定制安卓限制的方式,为社会上公共的开发人员提供了一种基于普通Android应用app级别的AI电话机器人的应用能力。上层app可以使用底层内置SDK,很容易的就可以对手机电话外呼和来电过程的通话声音进行提取和加工处理。上层app在这个基础之上可以自由的定制更多的电话的IVR语音导航和AI通话的相关功能,自由的接入DeepSeek等各种AI和大模型平台,为最终服务的用户,提供更加精细的个性化的能力。原创 2025-02-27 21:56:37 · 4155 阅读 · 2 评论 -
手机打电话时如何识别对方按下的DTMF按键的字符-安卓AI电话机器人
我们一般使用电话座机或手机,拨打电话时,在振铃阶段或接通后,均可以按下键盘上的数字0-9、*、#等按键,把对应的DTMF按键值发送给对方。通话的对方接收该按键值后进行业务处理和反馈。本篇章中,我们从DTMF频率的组成、FFT过滤声音的频率,以及DTMF字符的识别等角度,一起探讨一下:Android手机中,如何通过手机app,识别出通话时对方手机到底有没有按键、按的是哪个dtmf按键。原创 2025-02-27 09:06:23 · 1560 阅读 · 3 评论 -
AI手机-手机SIM卡通话内容的ASR识别和文字提取-免费ASR方案
本文主要对免费ASR方案进行了一遍筛选,为后续深入的ASR模型选型和实际应用使用指引方向、缩小深入预研的范围,并在海选的选型过程中进行小结和汇总,提炼这些模型的特色和不足之处。原创 2024-07-23 15:31:35 · 1798 阅读 · 0 评论 -
AI手机-手机SIM卡通话内容的ASR识别和文字提取-ASR指标差异(在线、实时)
文中论述了ASR选型时的一些参考指标和衡量的因素。对后续的免费ASR选型和部署与使用方式提供一定的参考。针对实时ASR和非实时ASR,以及在线和离线ASR进行简单的探讨,并汇总出预期的选型要求。原创 2024-07-23 10:29:47 · 1215 阅读 · 0 评论 -
AI手机-手机SIM卡通话内容ASR识别和文字提取-(二、商用ASR方案)
目前在语音领域涉及收费的方案主要集中在智能硬件领域的AI交互、实时翻译、智能会议配件,以及软件增值领域的智能客服、会议纪要、内容识别、语音质检等方面。国内应用较为广泛的ASR方案大致有阿里、讯飞、百度、腾讯等方案商提供的支持,本次选型和探索是希望看看当前做得比较好的商用方案体验效果怎么样,费用情况如何,供后续深入分析和选型提供参考依据。原创 2024-05-14 10:09:26 · 1701 阅读 · 3 评论 -
AI手机-手机SIM卡实时通话内容ASR识别和文字提取-(AI手机通话功能探索)
本篇章中,我们将对通话中获取到的语音数据做进一步的加工和处理,使语音业务能进行更多增值业务的扩展,并为通话业务实时的语音质检等安全性功能提供可靠的支撑。同时也顺便理清一下通话语音做文字识别方向后续需要如何做、有哪些功能和能力,要如何架构分阶段去实施。同时在互联网中搜寻了下ASR的行业现状,看看市面上有哪些成熟方案,筛选出用户量够大、实现方式灵活可靠、识别率较高的方案用于后续针对性的选型。原创 2024-05-14 10:01:23 · 1310 阅读 · 1 评论
分享