智能家居中的音频事件识别:用户体验与评估指标
1. 算法选择与评估基础
在选择将哪种算法应用于特定嵌入式平台时,考虑到计算预算有限,且不同算法类别的计算成本差异较大,将性能与计算成本进行映射是很有用的。同样,研究声学模型的性能与内存效率的关系也很有必要,因为在为嵌入式硬件设计模型时,内存是一个重要的考虑因素。除了常见的高斯混合模型(GMMs)、深度神经网络(DNNs)和支持向量机(SVMs)之外,其他算法也可以用同样的方法进行评估,并设计新的研究方法,将计算成本和内存需求的优化更明确地纳入算法设计和结构中。
2. 用户体验相关问题
2.1 用户界面方面
预测用户体验的根本问题在于理解用户如何与音频事件识别(AER)系统进行交互。以自动语音识别(ASR)为例,其目标是提供语音消息的文字转录,用户可以通过阅读返回的文本直接判断转录是否与自己所说的内容一致,因此词错误率(WER)指标与用户体验和意见相关。而在自动文本转语音合成(TTS)中,用户体验取决于合成语音的自然度和可懂度,目前自动指标无法很好地与用户的自然意见相关联,TTS评估仍主要依赖意见评分技术,即让一组用户实际聆听并对系统进行评分,有时还会借助众包平台。
从这些对比中,引出了两个问题:
- 用户通过哪些界面体验AER的结果?即AER中类似于ASR中阅读文本转录或TTS中聆听语音的等效方式是什么?
- 是否有一个或多个客观指标与用户通过确定的界面获得的体验质量密切相关?
对于24/7的AER系统,其目标通常是提醒用户音频记录中某些声音的存在或缺失,提醒可能带有时间戳,但并非必需。大多数AER系统的价值还与语言意义上的位移概念有关,例如用户不在家时家中特定事件的发生,或过去发生的感兴趣事件。因此,远程提醒比单纯确认用户已经听到的声音更有价值。这使得AER的用户体验比ASR或TTS更难定义,具体表现为:
- AER的用户体验在很大程度上取决于远程提醒系统的可靠性。例如,如果由于底层消息平台的缺陷导致提醒未发送,用户会认为整个声音识别系统失败,而不管底层AER算法的准确性如何。
- 即使提醒系统完美无缺,验证远程音频提醒的真实性也需要能够再次确认音频提醒有合理的原因。这可以通过直接让用户聆听触发检测的音频片段,或间接通过其他传感方式(如查看家庭监控摄像头的视频流)来实现,但间接方式的可靠性较低。
从能够将音频事件提醒与音频片段进行核对的角度来看,使用真阳性或假阳性率(或系统的精度度量)似乎是衡量用户体验的合理方法,但还需要考虑以下两个问题:
- 漏检情况如何?它们在何种意义上影响用户体验?
- 所考虑的指标中是否存在主观性?
2.2 主观性在AER评估中的重要性
2.2.1 系统错误类型及其对用户意见的影响
系统可能会出现两种类型的错误:假阳性(误报),即对非目标声音发送提醒;假阴性(漏检),即目标声音存在时未发送提醒。
漏检情况难以被用户交叉核对,理论上对用户体验影响较小,但偶然发现漏检情况(如发现家中窗户破碎但未收到提醒,或在家中烟雾报警器响起却未收到提醒)可能会对用户意见产生灾难性影响,使AER系统的可信度瞬间丧失。
在主观性方面,ASR转录中自动转录与所说内容的比较几乎没有主观性,而TTS中人类对自然度的判断相当主观。AER在这一尺度上处于什么位置?标准分类错误率对用户体验的预测是否会因一定比例的主观性而产生偏差?虽然关于这一主题的正式研究尚未开展,但有一些现场观察结果:
- 频繁的误报会对用户意见产生负面影响。
- 频繁的真阳性也会令人烦恼,因此系统可能需要设置屏蔽期,或者在声音持续一段时间后再报告真阳性,但这会增加系统延迟。
- 如果应用与控制某些关键智能家居功能(特别是安全和舒适)相关,漏检可能会对产品声誉产生巨大影响。
- 某些声音的漏检体验可能不明显且很少发生,例如大多数人不会为了测试系统而打破自己的窗户;而婴儿哭声或烟雾报警器的声音更容易被触及,因此这些声音的潜在漏检更有可能引发用户的负面意见。
- 如果误报可以通过触发警报的音频片段进行核对,不同的误报对用户意见的负面影响程度不同。例如,将婴儿哭声与女高音歌剧演唱混淆可能比与吸尘器声音混淆更容易被原谅,因为用户可以想象婴儿哭声和女高音歌剧演唱都是人类发出的、有力的高音声音;而将人类声音与机器噪音混淆则更难被原谅,因为用户听到的是语义领域,而非声音本身的声学特征。在某些情况下,这种区别可能更加微妙,例如将烟雾报警器与手机铃声混淆可能难以被原谅,因为烟雾报警器意味着危险,而手机铃声可能只是受欢迎的声音。
2.2.2 错误的定性评估
音乐信息检索领域的研究表明,定量分类准确性可能不足以表征算法是否提供了用户期望的功能。机器学习系统可能会出现“马”行为,即解决的问题与设计初衷不同,从而提供与用户期望不同的功能。这种行为可能不会从错误率中立即显现出来,但可以通过人类听众对系统整体行为的深入定性评估,特别是对系统错误的定性分析来发现。
因此,标准的定量错误率(如F分数和等错误率)不一定是用户体验的良好预测指标,因为存在“主观性差距”,且需要满足用例需求而非仅仅关注错误率。在产品设计和AER应用层面,需要引入更直接涉及用户意见的指标,并提出能够弥合标准错误率与用户体验之间差距的指标。在基础研究层面,可以构建一个“聆听对象”的物理实例来弥合错误率与实际应用之间的差距,例如使用标准计算机、麦克风和简单的提醒系统。鼓励学术研究人员构建声音识别实例以发现突出的研究问题是个不错的想法,可以独立进行或与工业实验室合作。
2.2.3 主观指标
开发与用户体验密切相关的指标取决于能否获得用户体验测量值。意见评分方法是一种解决方案,在语音合成领域已得到广泛应用和研究,在音乐信息检索领域也有一定应用。在这种框架下,需要注意以下两点:
- 意见评分是李克特类型的量表,本质上是有序的,因此标准算术平均值不能可靠地用于此类评分。但箱线图和通过威尔科克森符号秩检验对显著性区间的仔细分析可以提供比较系统的有用方法。
- 在意见评分中,用户被要求评价的内容很大程度上取决于所提出的问题。例如,在语音合成中,询问“你喜欢这个系统吗:(1)非常不喜欢(2)不喜欢(3)既不喜欢也不讨厌(4)喜欢(5)非常喜欢”与询问“请评价系统的自然度:(1)与人类非常不同(2)与人类有些不同(3)与人类有些相似(4)与人类相似(5)与人类非常相似”是不同的。同样,在评价AER系统时,询问系统的有用性、烦扰性或警报的相关性会产生不同的见解和不同的意见评分数值范围。意见评分问题可以设计在智能家居产品的用户界面中,以实时衡量系统的改进情况。
2.3 区分AER评估中的客观性与主观性
当有了人类生成的意见评分后,就可以研究现有错误指标是否与这些评分密切相关,并探索与用户体验更相关的新错误指标或算法。例如,优化音乐边界检测系统时,使用Fα分数而非F1分数(α值强调精度而非召回率)可以使系统获得更好的意见评分。这表明额外的参数(如α)可以调整“客观”指标与主观意见评分之间的对应关系。
实际上,大多数检测系统通过对分数进行阈值处理来做出决策,这导致误报(FAs)和漏检(MDs)的数量相互依赖。阈值可以设置得更宽松,以减少漏检但增加误报;也可以设置得更保守,以减少误报但增加漏检。根据应用约束确定阈值和FA/MD权衡被称为设置系统的操作点,这是主观的,取决于应用需求。有些用户可能因为过度讨厌误报而主观上更喜欢保守的系统,而另一些用户可能因为担心漏检而希望获得尽可能多的提醒。
这影响了在比较评估中“最佳系统”的定义,即我们是指具有最佳声学建模和声音区分能力的系统,还是最适合用例的系统。因此,精度、召回率和F分数可能会错过最佳声学模型,如果操作点选择不当或在比较系统中做出了多样化的主观操作点假设。
在说话人识别领域,对系统评估中客观区分和主观校准之间的区别进行了很好的解释和研究,并提出了以下解决方案:
- 系统地使用检测错误权衡(DET)曲线来比较整个操作点范围内的声音区分能力。DET曲线是接收者操作特征(ROC)曲线的变形,使用正态偏差缩放使曲线变平,便于系统的视觉比较。DET曲线整体更接近原点表示更好的声音区分能力,通常用等错误率(EER)来总结,即曲线与Pmiss = PFA对角线的交点。EER可以全局地对各种系统的区分能力进行排名,但DET曲线可能会交叉,意味着在某些操作点范围内,校准后系统的排名可能会颠倒。此外,EER操作点对于开放式24/7应用可能不相关,因为系统应更警惕误报。
- 用离散成本函数(DCF)、对数似然比成本函数(Cllr)和应用错误概率(APE)曲线来补充DET曲线,以更深入地了解区分与校准的关系。
DCF的定义为:
$C_{det}(P_{miss}, P_{FA}) = C_{miss}P_{miss}P_{tar} + C_{FA}P_{FA}(1 - P_{tar})$
其中,$C_{miss}$和$C_{FA}$是成本参数,用于主观权衡目标声音的漏检率$P_{miss}$和误报率$P_{FA}$,$P_{tar}$是目标声音出现的先验概率。
为了开发一个更全局的性能度量,定义了对数似然比成本函数Cllr,它是所有可能的DCF在决策阈值和成本范围内的积分。具体步骤如下:
- 总错误概率$P_{e}(\tau)$的定义为:
$P_{e}(\tau) = \widetilde{P}
{tar}(\tau)P
{miss}(\tau) + (1 - \widetilde{P}
{tar}(\tau))P
{FA}(\tau)$
其中,$\widetilde{P}
{tar}(\tau)$是先验对数优势,将$P
{miss}(\tau)$和$P_{FA}(\tau)$通过加权组合成一个单一指标。
- 决策阈值$\tau$的定义为:
$\tau = \log(\frac{P_{tar}}{(1 - P_{tar})}\frac{C_{miss}}{C_{FA}})$
先验对数优势$\widetilde{P}
{tar}$的定义为:
$\widetilde{P}
{tar} = \frac{P_{tar}C_{miss}}{P_{tar}C_{miss} + (1 - P_{tar})C_{FA}} = \frac{1}{1 + e^{-\tau}} = logit^{-1}(\tau)$
其中,$logit(x) = \log(\frac{x}{1 - x})$。
- 通过对数变换函数对阈值尺度或分类器发出的分类分数进行变换,可以绘制$P_{e}(\tau)$与$\tau$的关系,得到应用错误概率(APE)曲线。
- Cllr定义为$P_{e}(\tau)$在$\tau$上的积分,它包含了校准信息,与不包含校准信息的曲线下面积(AUC)不同,且更易于解释为错误度量。
- 可以通过优化应用于$\tau$的变换函数来最小化Cllr,即优化$\widetilde{P}
{tar}(\tau)$函数,以在整个$\tau$范围内找到“真正的最小错误”$P
{e}$,同时考虑区分和校准因素。
此外,开放式优化方法允许在优化过程中明确纳入应用约束,例如限制精度和召回率,从而将用户意见直接纳入训练过程。目前,AER研究中对区分与校准问题的研究还不够充分,尚未发现关于使用Cllr和APE曲线的相关文献。短期内,建议仅将F分数的计算作为在DET曲线上设置操作点的副产品,并明确说明评估是在系统保守性或宽松性的主观假设下进行的,或者更明确地说明所选的应用约束,以避免暗示比较系统的排名具有普遍和客观的最佳声学建模能力。
2.4 总结与建议
- 在选择算法时,要综合考虑计算成本和内存效率。
- 对于用户体验的评估,要认识到AER与ASR、TTS的不同,关注远程提醒系统的可靠性和验证音频提醒真实性的方法。
- 标准定量错误率不一定能很好地预测用户体验,应引入更直接涉及用户意见的指标。
- 在评估系统时,要区分客观区分和主观校准,可使用DET曲线、DCF、Cllr和APE曲线等方法。
总之,AER系统的设计和评估需要综合考虑多个因素,以提高用户体验和系统性能。
3. 相关流程与总结表格
3.1 意见评分流程
graph LR
A[提出评分问题] --> B[用户进行评分]
B --> C[收集评分数据]
C --> D[使用箱线图和威尔科克森符号秩检验分析数据]
D --> E[得出评估结果]
3.2 系统评估指标总结表格
| 指标 | 作用 | 特点 |
|---|---|---|
| WER | 用于ASR,衡量转录与语音的一致性 | 与用户体验和意见相关 |
| 意见评分 | 用于TTS和AER,衡量用户对系统的评价 | 受问题影响大,需特殊分析方法 |
| DET曲线 | 比较系统的声音区分能力 | 全局接近原点表示更好区分能力,可交叉 |
| EER | 总结DET曲线,衡量系统区分能力 | 不依赖操作点选择,但对某些应用可能不相关 |
| DCF | 考虑漏检和误报成本,评估系统性能 | 单一数值,依赖操作点选择 |
| Cllr | 全局衡量系统性能,考虑区分和校准 | 积分形式,包含校准信息 |
| APE曲线 | 展示总错误概率与阈值的关系 | 可用于分析系统在不同阈值下的性能 |
3.3 系统错误类型总结
| 错误类型 | 定义 | 对用户体验的影响 |
|---|---|---|
| 假阳性(误报) | 对非目标声音发送提醒 | 频繁误报会产生负面影响,不同误报影响程度不同 |
| 假阴性(漏检) | 目标声音存在时未发送提醒 | 偶然发现可能对用户意见产生灾难性影响,不同声音漏检影响不同 |
4. 操作点设置与系统性能关系
操作点的设置在音频事件识别(AER)系统评估中起着关键作用。如前文所述,不同的用户对误报(FA)和漏检(MD)的接受程度不同,这导致操作点的选择具有主观性。为了更直观地理解操作点设置与系统性能的关系,我们可以通过一个简单的示例来说明。
假设我们有一个AER系统,用于检测家庭中的特定声音事件,如婴儿哭声。我们可以根据不同的操作点设置,得到不同的FA和MD数量。以下是一个模拟的数据表格:
| 操作点设置 | 误报数量(FA) | 漏检数量(MD) |
|---|---|---|
| 宽松 | 10 | 2 |
| 适中 | 5 | 5 |
| 保守 | 2 | 10 |
从这个表格中可以看出,当操作点设置为宽松时,系统会让更多的事件通过,从而减少了漏检的数量,但同时增加了误报的数量;而当操作点设置为保守时,系统会让更少的事件通过,减少了误报的数量,但增加了漏检的数量。这清晰地展示了FA和MD之间的相互依赖关系。
4.2 操作点设置的决策流程
graph LR
A[确定应用场景] --> B[评估用户对FA和MD的接受程度]
B --> C[选择操作点类型(宽松/适中/保守)]
C --> D[设置阈值]
D --> E[进行系统测试]
E --> F{是否满足需求}
F -- 是 --> G[确定操作点]
F -- 否 --> B
这个流程图展示了操作点设置的决策流程。首先,需要确定应用场景,例如是用于安全监控还是日常活动监测。然后,评估用户对误报和漏检的接受程度,根据这个评估选择操作点的类型。接着,设置相应的阈值,并进行系统测试。最后,根据测试结果判断是否满足需求,如果不满足则重新评估用户接受程度,直到找到合适的操作点。
5. 不同评估指标的综合应用
5.1 指标综合应用的必要性
在实际的AER系统评估中,单一的评估指标往往无法全面地反映系统的性能。例如,F分数虽然综合了精度和召回率,但它可能会受到操作点选择的影响,不能很好地体现系统在不同应用场景下的适应性。因此,需要综合应用多种评估指标,以更准确地评估系统的性能。
5.2 综合评估示例
假设我们要比较两个AER系统的性能,我们可以综合使用DET曲线、EER、DCF和Cllr等指标。以下是一个简单的评估步骤:
- 绘制DET曲线 :分别绘制两个系统的DET曲线,通过观察曲线的位置和形状,初步比较它们的声音区分能力。如果一个系统的DET曲线整体更接近原点,说明它在整个操作点范围内的声音区分能力更强。
- 计算EER :计算两个系统的EER,EER越低,说明系统的区分能力越好。但需要注意的是,EER操作点对于某些应用可能不相关,因此不能仅仅依靠EER来判断系统的优劣。
- 计算DCF :根据应用场景,确定成本参数$C_{miss}$和$C_{FA}$,计算两个系统的DCF。DCF考虑了漏检和误报的成本,能够更全面地评估系统在特定应用场景下的性能。
- 计算Cllr :计算两个系统的Cllr,Cllr包含了校准信息,能够更准确地衡量系统在整个操作点范围内的性能。
通过综合应用这些指标,我们可以更全面地了解两个系统的性能,从而做出更合理的选择。
5.3 综合评估指标总结表格
| 评估指标 | 作用 | 优势 | 局限性 |
|---|---|---|---|
| DET曲线 | 比较系统在整个操作点范围内的声音区分能力 | 直观展示系统性能,不受操作点选择的影响 | 难以直接量化系统性能 |
| EER | 衡量系统的区分能力 | 简单易懂,可用于全局排名 | 对于某些应用可能不相关 |
| DCF | 考虑漏检和误报成本,评估系统在特定应用场景下的性能 | 结合了应用约束,更符合实际需求 | 依赖于成本参数的选择 |
| Cllr | 全局衡量系统性能,考虑区分和校准 | 包含校准信息,更准确地反映系统性能 | 计算复杂,理解难度较大 |
6. 未来研究展望
6.1 研究方向
- 深入研究主观性对评估指标的影响 :目前虽然认识到了主观性在AER评估中的重要性,但对于主观性如何具体影响评估指标还缺乏深入的研究。未来可以开展更多的实验和调查,以明确主观性的影响机制,从而开发出更准确的评估指标。
- 探索新的评估指标和算法 :随着技术的不断发展,现有的评估指标和算法可能无法满足日益复杂的AER系统需求。未来可以探索新的评估指标和算法,以更好地衡量系统的性能和用户体验。
- 加强跨领域研究 :AER涉及到多个领域的知识,如声学、机器学习、人机交互等。未来可以加强跨领域的研究,整合不同领域的技术和方法,以提高AER系统的性能和用户体验。
6.2 实践建议
- 建立标准化的评估流程 :为了提高AER系统评估的准确性和可比性,需要建立标准化的评估流程。这个流程应该包括指标的选择、操作点的设置、数据的采集和处理等方面。
- 加强用户参与 :用户体验是AER系统设计和评估的重要目标,因此需要加强用户参与。可以通过用户调查、实验等方式,了解用户的需求和意见,将用户意见纳入到系统的设计和评估中。
- 推动产学研合作 :产学研合作可以促进技术的创新和转化,提高AER系统的实际应用效果。未来可以加强学术界、工业界和研究机构之间的合作,共同推动AER技术的发展。
总之,音频事件识别系统的设计和评估是一个复杂的过程,需要综合考虑多个因素。通过深入研究和实践,我们可以不断提高AER系统的性能和用户体验,为智能家居等领域的发展提供更好的支持。
超级会员免费看
1482

被折叠的 条评论
为什么被折叠?



