神经自适应技术前沿研究成果综述
1. 深度学习在唇语识别中的应用
自动唇语识别是分类和模式识别领域的一个开放性问题。过去十年里,针对部分语言已应用不同方法,试图通过唇语实现语音到文本的自动转换。深度学习作为模式识别中最新且最有效的学习方法,吸引了学术界将其应用于模式识别和分类问题的研究。本研究聚焦于评估和调研唇语识别研究,并分析深度学习在该问题上的应用,以提高唇语识别的准确性。
1.1 唇语识别的应用场景
如今,摄像头获取的视觉信息被广泛应用于各类研究,其中之一便是利用计算机辅助系统进行唇语识别,而非依赖传统专家。唇语识别是在缺乏声音信息时,通过视觉解读嘴唇、面部和舌头的动作来提取语音信息。过去十年里,针对不同语言,尤其是英语的唇语识别展开了详细研究,这些研究成果有望应用于机器人 - 人类交互、与听力障碍者交流、出于安全原因揭示语音内容以及其他无声音场景等相关研究中。
1.2 自动唇语识别流程
自动唇语识别的流程如下:
1.
图像序列采集
:根据相机性能,以 50 Hz 的推荐频率采集图像序列。
2.
人脸检测
:对每一帧图像进行人脸检测。
3.
唇部检测
:针对检测到的每张人脸进行唇部检测。
4.
符号类获取
:利用卷积聚类获取符号类,作为深度学习的输入。
5.
语言匹配
:使用自然语言处理(NLP)方法,将深度神经网络(DNNs)的输出与语言进行形态匹配。
以下是自动唇语识别的流程图:
graph LR
A[图像序列采集] --> B[人脸检测]
B --> C[唇部检测]
C --> D[符号类获取]
D --> E[深度学习]
E --> F[语言匹配]
2. 果蝇体内非平衡电子自旋的自发射频发射
研究人员使用现成的射频仪器和锁定检测技术,测量了置于磁场中的单只果蝇的自发射频发射。这种发射呈现出与脉冲电子顺磁共振类似的共振特征,但无需输入射频能量。研究推测,这些射频发射是由于手性诱导自旋选择性(CISS)作用于细胞电子电流,导致体内非平衡自旋极化群体的产生。此外,射频发射对全身麻醉剂有响应,因此可能与神经元活动相关。
2.1 测量设置
将约 10 只果蝇置于特氟龙管中,放置在 WR229 波导的磁场最大值处,使用室温 C 波段卫星接收器在 4.5 - 4.8 GHz 范围内检测射频发射。通过对数功率计和锁定放大器检测信号,调制频率为 16 kHz,宽度约为 90 高斯,响应时间常数为 1 秒(每倍频程 6 dB),稳定磁场以约 10 高斯/秒的速度扫描。
2.2 潜在应用
这种全新且完全被动的方法作为一种非侵入性测量技术的潜在用途值得探讨。
3. 单次经颅直流电刺激(tDCS)对手术学员机器人缝合技能的提升
复杂的外科手术任务,如机器人缝合,通常需要大量训练来提高手术熟练度。然而,随着近期医疗改革,训练机会变得有限。非侵入性的经颅直流电刺激(tDCS)已被证明能改善运动强度、手部灵活性和技能学习。但研究 tDCS 对手术表现影响的相关研究较少,现有研究要么针对医学生,要么聚焦于刺激运动皮层。本研究团队此前发现,新手术技能的习得依赖于前额叶皮层的参与,因此前额叶皮层是 tDCS 进行神经增强的合适区域。
3.1 研究方法
采用双盲交叉试验设计,将 15 名右利手且未接触过机器人手术的外科住院医师随机分为两组,分别在两个独立阶段接受主动或假 tDCS 刺激,顺序进行平衡处理。主动组双侧前额叶皮层接受 2 mA 电流刺激 15 分钟,假刺激组先进行 30 秒电流上升,随后立即下降。在每个阶段,受试者进行三次机器人缝合任务,分别定义为“干预前”“干预中”和“干预后”阶段,并评估完成时间和多项技术技能指标。
3.2 研究结果
两组在基线表现上无显著差异。从“干预前”到“干预后”,两组的完成时间均显著缩短。主动 tDCS 组在错误评分上有显著改善,打结抗拉强度也显著高于假刺激组。在进展评分和其他组间及组内比较中,未发现显著差异。
以下是两组在不同阶段的表现对比表格:
| 组别 | 干预阶段 | 完成时间(秒) | 错误评分(mm) | 打结抗拉强度(N) |
| ---- | ---- | ---- | ---- | ---- |
| 主动组 | 干预前 | 143(83) | 1(2) | 44.46(32.48) |
| 主动组 | 干预后 | 113(40) | 1(1) | - |
| 假刺激组 | 干预前 | 152(81) | - | 29.66(51.13) |
| 假刺激组 | 干预后 | 115(64) | - | - |
4. 利用无创脑电图捕捉生态环境中的听觉活动
事故分析表明,关键听觉刺激(如警报)可能无法引起人们的注意,从而导致严重后果。此前研究发现,使用 32 湿电极 Biosemi 脑电图可进行单试验分类,以检测这种注意力不集中现象。然而,此类系统体积庞大,难以应用于日常生活或实际场景。幸运的是,新型无创脑电图已被开发出来。本初步研究旨在评估此类系统(如 cEEGridR,TMSI)在模拟和实际飞行航空环境研究中的应用可能性。
4.1 研究方法
五名参与者参与了经典的奇偶数范式实验,设置了低工作量和高工作量两种条件。低工作量条件下,参与者只需检测奇数目标声音(占比 25%);高工作量条件下,参与者需在对目标声音做出反应的同时进行倒计数任务。使用蓝牙流式便携式 LiveAmp 放大器,从 20 个电极(每耳周围 10 个)以 1000 Hz 的频率记录数据,并参考左耳的 CMS/DRL(电极 L4a 和 L4b)。离线对数据进行 0.5 - 40 Hz 滤波,使用伪迹子空间拒绝(ASR)进行清理,并重新参考至最接近乳突的 R5 和 L5 电极。提取 2.5 秒的刺激锁定时程([-1;1.5] s),测量并分析事件相关电位(ERPs)和时频数据,根据声音类型(奇数 vs. 标准)和工作量(高 vs. 低)进行统计分析,采用 EEGLAB(v14.1.2)下的置换检验和 FDR 校正。
4.2 研究结果
在 cEEGrid 的多个电极上观察到早期和晚期听觉处理成分(分别为 N1 和 P3)。仔细观察 R1 电极时,与标准声音相比,目标检测时 N1(约 180 ms 达到最大值)和 P3(约 465 ms 达到最大值)的振幅增加。统计显示,在 N1 和 P3 潜伏期,目标检测与标准声音之间存在显著差异。与标准声音相比,目标声音的整体频谱活动增加,在刺激后早期(100 - 400 ms)的 α 频段(8 - 12 Hz)和后期(300 - 600 ms)的 θ 频段(4 - 8 Hz)均有显著增加。关于工作量的影响,高工作量条件下早期听觉相关 ERPs(至少 P2 成分)似乎有所增加,但统计未达到显著水平。在时频数据方面,两种条件下未观察到差异。
4.3 研究结论与展望
cEEGridR 在研究听觉脑电图活动方面显示出有前景的结果,尽管成分的潜伏期和定位有所变化。最终使用 14 个电极,观察到了常见的听觉奇偶数时锁和时频活动。由于参与者数量较少,本初步研究的统计效力较低,但在 ERPs 和 ERSPs 上仍观察到显著差异。下一步计划在模拟器和实际飞行条件下,将 cEEGridR 记录与干电极系统进行比较,并尝试对这些数据进行分类,以研究注意力性耳聋。
5. 电极移位对脑机接口分类器准确性的影响
研究人员调查了头皮上脑电图(EEG)记录电极的移位情况,使用模拟数据评估电极移位对脑机接口(BCI)分类准确性的影响。
5.1 研究背景
许多 BCI 方法使用空间滤波器根据电极对分类的重要性对 EEG 电极进行加权。例如,常见的 BCI 方法是运动想象,参与者通过想象左右手部运动来控制光标,此时左右运动皮层对分类最为关键,通常由电极 C3 和 C4 代表。因此,空间滤波器可能会给这些电极分配较高的权重。若这些重要电极在头皮上移位,记录的数据将发生变化。一般认为,相关电极的移位会影响任何 BCI 的分类准确性。
5.2 研究问题
- 电极移位是否会影响分类准确性?
- 重要电极(从空间滤波器角度)移位的影响是否比不重要电极移位的影响更大?
- 单个时间点记录的 EEG 活动构成头皮上的激活模式,显示投影强度。在同一激活区域内移位的电极,对分类准确性的影响是否小于跨激活区域移位的电极?
5.3 研究方法
使用 SEREEGA 工具箱模拟完成奇偶数范式的参与者的 EEG 数据。通过改变源位置和投影,模拟 20 个虚拟受试者,并添加随机噪声。将数据分为训练分类器和测试分类器两部分。在测试集的不同副本中实施电极移位,改变移位方向、幅度和移位电极。使用窗口均值方法对训练数据的 8 个连续 50 ms 窗口进行训练,然后应用于有和无移位的测试数据,比较获得的准确性。
5.4 研究结果
校准后的分类准确性在不同受试者之间介于 84% - 99% 之间。电极移位导致准确性变化范围为 -8% - 2%,平均变化为 -1.04%,标准差为 0.7%。对研究问题的回答如下:
1. 通过对有和无移位的平均准确性进行 t 检验,确定电极移位对分类准确性有显著影响(t = 12.775,p << 0.01)。
2. 滤波器权重与分类准确性影响之间的回归分析显示,存在显著的正相关关系(t = 6.252,p << 0.01),即权重较高(正或负)的电极移位影响更大。
3. 方差分析(ANOVA)显示,权重和模式偏差因素之间存在强烈的显著交互作用(F(1,39) = 8.674,p << 0.05),但单个因素无显著影响。
5.5 研究展望
进一步研究 BCI 中电极移位问题的下一步是同时移动多个电极,并在真实的非模拟数据中验证研究结果。
6. 各项研究成果总结与对比
6.1 研究领域与目标对比
| 研究领域 | 研究目标 |
|---|---|
| 深度学习在唇语识别中的应用 | 评估和调研唇语识别研究,分析深度学习应用以提高唇语识别准确性 |
| 果蝇体内非平衡电子自旋的自发射频发射 | 测量果蝇自发射频发射,探讨其与神经元活动关系及潜在非侵入性测量用途 |
| 单次经颅直流电刺激(tDCS)对手术学员机器人缝合技能的提升 | 研究 tDCS 对手术学员机器人缝合技能的影响 |
| 利用无创脑电图捕捉生态环境中的听觉活动 | 评估新型无创脑电图系统在航空环境研究中检测听觉活动的可能性 |
| 电极移位对脑机接口分类器准确性的影响 | 评估电极移位对脑机接口分类准确性的影响 |
6.2 研究方法对比
| 研究领域 | 研究方法 |
|---|---|
| 深度学习在唇语识别中的应用 | 采集图像序列、人脸检测、唇部检测、卷积聚类获取符号类,用 NLP 方法匹配语言 |
| 果蝇体内非平衡电子自旋的自发射频发射 | 使用射频仪器和锁定检测技术,在特定磁场和频率下测量 |
| 单次经颅直流电刺激(tDCS)对手术学员机器人缝合技能的提升 | 双盲交叉试验设计,分组给予不同 tDCS 刺激,评估手术任务指标 |
| 利用无创脑电图捕捉生态环境中的听觉活动 | 让参与者参与奇偶数范式实验,记录脑电图数据,进行滤波、清理、分析 |
| 电极移位对脑机接口分类器准确性的影响 | 使用 SEREEGA 工具箱模拟 EEG 数据,实施电极移位,训练和测试分类器 |
7. 研究成果的实际应用潜力分析
7.1 唇语识别技术的应用
- 人机交互 :在机器人 - 人类交互中,唇语识别技术可让机器人更好地理解人类意图,即使在嘈杂环境或无声场景下也能实现有效沟通。
- 特殊人群辅助 :为听力障碍者提供便利,通过唇语将语音转化为文字,帮助他们与他人交流。
- 安全领域 :在安全监控等场景中,可通过唇语揭示语音内容,获取重要信息。
7.2 果蝇自发射频发射研究的应用
- 神经科学研究 :为研究神经元活动提供新的视角和方法,有助于深入了解神经系统的工作机制。
- 医疗检测 :作为一种非侵入性测量技术,可能用于疾病的早期检测或麻醉效果的监测。
7.3 tDCS 对手术技能提升的应用
- 手术培训 :在外科手术培训中,使用 tDCS 可提高学员的手术技能,缩短培训周期,提高培训效果。
- 临床手术 :在实际临床手术中,可能帮助医生更好地发挥技能,提高手术质量。
7.4 无创脑电图检测听觉活动的应用
- 航空领域 :在航空环境中,检测飞行员对警报等关键听觉刺激的注意力,保障飞行安全。
- 日常生活 :可用于开发智能设备,监测人们在日常生活中的听觉注意力情况。
7.5 电极移位对 BCI 影响研究的应用
- BCI 设备优化 :有助于改进脑机接口设备的设计和使用,提高分类准确性,增强设备的稳定性和可靠性。
- 康复治疗 :在康复治疗中,更准确的 BCI 可帮助患者更好地控制辅助设备,促进康复效果。
8. 未来研究方向探讨
8.1 技术融合方向
- 多模态技术融合 :将唇语识别与语音识别、面部表情识别等多模态技术结合,提高人机交互的准确性和自然度。
- 跨学科技术融合 :如将果蝇自发射频发射研究与生物医学工程、材料科学等学科结合,开发新型的检测设备和技术。
8.2 应用拓展方向
- 新应用场景探索 :探索唇语识别、无创脑电图等技术在智能家居、智能交通等新领域的应用。
- 个性化应用开发 :根据不同个体的特点和需求,开发个性化的 tDCS 治疗方案和 BCI 设备。
8.3 研究方法改进方向
- 数据采集与分析方法改进 :提高模拟数据的真实性和准确性,改进脑电图数据的采集和分析方法,以获得更可靠的研究结果。
- 实验设计优化 :设计更合理的实验方案,增加样本量,提高研究的科学性和有效性。
以下是未来研究方向的流程图:
graph LR
A[技术融合方向] --> B[多模态技术融合]
A --> C[跨学科技术融合]
D[应用拓展方向] --> E[新应用场景探索]
D --> F[个性化应用开发]
G[研究方法改进方向] --> H[数据采集与分析方法改进]
G --> I[实验设计优化]
综上所述,这些研究成果在不同领域展现出了巨大的潜力和价值。未来,通过不断的研究和创新,有望将这些技术应用到更广泛的实际场景中,为人类的生活和健康带来更多的便利和改善。
超级会员免费看
446

被折叠的 条评论
为什么被折叠?



