自行车共享停靠站识别与移动设备唇读语音增强系统开发
自行车共享停靠站识别
城市出行对于气候变化以及联合国可持续发展目标而言极为重要。因此,使用可持续的交通方式、提高现有交通系统的效率十分关键。本文聚焦于通过分析数据来确定自行车共享停靠站的最佳位置,以提升城市出行的便利性和可持续性。
各教区的误差平方和
| 教区名称 | 聚类数量 | 误差平方和(SSE) |
|---|---|---|
| Parque das Nações | 14 | 0.853283 |
| Marvila | 8 | 1.662275 |
| Beato | 5 | 0.462912 |
从这个表格中可以看出,不同教区的聚类数量和误差平方和存在差异。Marvila 教区面积比 Beato 大,其误差平方和也更大。而 Parque das Nações 的停靠站数量与其他教区情况在后续分析中有重要作用。
Parque das Nações 分析
对 Parque das Nações 进行分析后,地图被划分为三个部分,用以展示现有停靠站(里斯本自行车)与所采用方法之间的差异。
-
整体情况
:大部分黄色点(现有停靠站)与深蓝色点(优化后的停靠站位置)相邻,算法在这些点上的运行符合预期,差异在 200 米以内。
-
各部分详细分析
:
-
第一部分
:有两个黄色点,相邻的深蓝色点稍偏南。深蓝色点靠近野餐花园、一所重要学院、托儿所和驾校,这些兴趣点(PoI)导致了两者的差异。
-
第二部分
:有一个孤立的深蓝色点(东北部),该点附近有青少年花园、塔霍河以及多条主要自行车道,这也证明了在此设置停靠站的必要性。
-
第三部分
:有三个深蓝色点附近没有黄色点。第一个点靠近地铁站(粉色多边形 Moscavide);第二个点靠近葡萄牙最重要的火车站之一 Gare do Oriente,该站每天为数千人提供交通服务;最后一个点(该部分左下角),算法考虑了后续正在开发的自行车道。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(分析Parque das Nações):::process --> B(划分地图为三部分):::process
B --> C(对比现有与优化停靠站):::process
C --> D1(分析第一部分):::process
C --> D2(分析第二部分):::process
C --> D3(分析第三部分):::process
D1 --> E1(考虑PoI差异):::process
D2 --> E2(考虑周边设施需求):::process
D3 --> E3(考虑交通站点与车道):::process
Beato 和 Marvila 分析
Beato 是本次研究中面积最小的教区,但它仍有一些重要的城市出行流量,也能找到适合设置自行车停靠站的地点。根据误差平方和的分布,Beato 使用了 5 个质心,Marvila 使用了 8 个质心。
-
Beato
:考虑 Olaias 地铁站和 Olaias 广场购物中心,靠近塔霍河的两个点位于自行车道上,另外两个点靠近学校,最后一个点非常靠近购物中心和地铁站。
-
Marvila
:通过观察地铁站和建议的停靠站位置,可以发现地铁站与输出结果之间存在相关性,这凸显了这些软出行解决方案对于最后一公里出行以及周边其他交通基础设施的重要性。其他点靠近兴趣点(学校、绿地、自行车道等)。
移动设备唇读语音增强系统开发
喉切除患者在交流方面面临诸多困难,传统的交流方式如使用电子喉和食管语音都存在各自的局限性。因此,开发一种有效的语音增强系统对于他们来说至关重要。
开发背景与需求
- 电子喉 :使用简单,但输出语音单调、无语调,难以发出辅音,外观也不太正常,部分用户不愿积极使用。
- 食管语音 :无需特殊设备,但需要说话者将空气吞入食管,许多老年喉切除患者难以掌握,且难以持续使用,语音会变弱、音调变低。
基于对 121 位喉切除患者的用户需求调查,确定了三个主要需求:
1.
使用现有设备
:手机,尤其是智能手机非常普及且计算能力强,可作为语音增强系统的核心单元。
2.
外观普通
:开发一个能识别用户唇部动作并发合成语音的系统,使用手机交流不会让人觉得奇怪。
3.
易于使用
:结合唇读和语音合成,让人们无需使用电子喉或食管语音即可交流。
唇读方法
使用 VAE(变分自动编码器)进行唇读,具体步骤如下:
1.
图像提取
:以 30 fps 捕获输入图像,将面部图像转换为 HOG 特征,计算图像中单元格亮度的梯度方向和梯度强度,创建直方图并在每个块区域进行归一化,使系统对几何变换和光照波动具有鲁棒性。使用 HOG 特征与 SVM 进行面部检测,再用梯度提升决策树(GBDT)检测唇部区域。
2.
图像预处理
:对唇部区域图像进行直方图归一化,得到 64×64 像素的图像。
3.
VAE 特征提取
:使用 VAE 提取唇形图像的特征。VAE 编码器是一个具有多个卷积层的模型,将图像作为输入以获得潜在表示空间 z,z 通常是标准正态分布,由平均向量 μ 和方差向量 σ 指定。将 36 个唇形图像记录下来,对每个图像数据在最高帧差点周围提取五个连续图像,生成特征向量序列。
4.
单词识别
:使用 CNN 单词识别器识别单词。以“ A - RI - GA - TO - U ”为例,其唇形序列为“ X, XA, A, AI, I, IA, A, AU, UO, O, OX, X ”,生成 VAE 特征向量序列后进行识别。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(输入图像):::process --> B(转换为HOG特征):::process
B --> C(面部检测):::process
C --> D(唇部区域检测):::process
D --> E(图像预处理):::process
E --> F(VAE特征提取):::process
F --> G(生成特征向量序列):::process
G --> H(CNN单词识别):::process
识别性能研究
- 不同用户 :让多个受试者在无特定说话风格要求的情况下进行 20 词识别实验,结果显示不同说话者的单词识别准确率差异很大。之后让七位受试者注意元音口型差异并以每分钟 50 个音节的速度说话,这些受试者的准确率达到了约 60%(前六个候选词)。
- 词汇量大小 :将词汇量从 20 个增加到 40 个,对一位训练有素的受试者进行两次实验。结果显示,前三个候选词的识别率为 54%,前六个候选词的识别率为 65%。词汇量增加对识别性能的影响不是很大,但在字母到唇形序列的转换规则上存在一些不匹配的情况,需要进一步审查。
综上所述,自行车共享停靠站识别研究为城市交通规划提供了有价值的参考,而移动设备唇读语音增强系统开发为喉切除患者的交流带来了新的希望。未来,这两个领域都有望通过进一步的研究和改进,为人们的生活带来更多便利。
自行车共享停靠站识别与移动设备唇读语音增强系统开发(续)
自行车共享停靠站识别的意义与展望
自行车共享停靠站识别的研究成果对于城市交通的可持续发展具有重要意义。通过对不同教区的分析,能够精准地定位自行车停靠站的最佳位置,从而提高自行车共享系统的使用效率,减少交通拥堵,降低碳排放。
对城市交通规划的影响
从城市规划的角度来看,这些研究结果可以为相关部门提供科学依据。例如,在 Parque das Nações 教区的分析中,根据兴趣点(PoI)和交通站点的分布来确定停靠站位置,能够更好地满足居民和游客的出行需求。对于 Beato 和 Marvila 教区,地铁站与停靠站位置的相关性分析,有助于加强不同交通方式之间的衔接,实现“最后一公里”出行的无缝对接。
| 影响方面 | 具体表现 |
|---|---|
| 提高出行便利性 | 合理设置的停靠站让居民更方便地使用自行车共享服务,减少步行距离。 |
| 促进交通方式融合 | 加强自行车与地铁、火车等公共交通的联系,鼓励更多人选择绿色出行。 |
| 优化城市空间利用 | 避免停靠站设置不合理导致的空间浪费或交通混乱。 |
未来研究方向
虽然本次研究已经取得了一定的成果,但仍有一些方面需要进一步探索。例如,可以考虑结合更多的实时数据,如自行车的使用频率、用户的出行时间和路线等,来动态调整停靠站的位置和数量。此外,还可以研究不同天气条件、季节变化对自行车共享使用的影响,以便更好地规划停靠站。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(现有研究成果):::process --> B(结合实时数据):::process
A --> C(考虑天气季节因素):::process
B --> D(动态调整停靠站):::process
C --> D
D --> E(优化城市交通规划):::process
移动设备唇读语音增强系统的优化与拓展
移动设备唇读语音增强系统为喉切除患者提供了一种新的交流方式,但目前仍存在一些可以改进的地方。
系统优化建议
- 提高识别准确率 :针对不同用户和词汇量大小对识别准确率的影响,可以进一步优化唇读算法。例如,对字母到唇形序列的转换规则进行更细致的调整,减少误识别的情况。同时,可以增加训练数据的多样性,提高系统对不同说话风格和口音的适应能力。
- 改善用户体验 :在移动设备上开发更友好的用户界面,让用户能够更方便地使用系统。例如,提供语音提示、可视化的操作指南等。此外,还可以考虑增加一些个性化的设置选项,如语音合成的音色、语速等,以满足不同用户的需求。
| 优化方面 | 具体措施 |
|---|---|
| 识别准确率 | 调整转换规则,增加训练数据多样性。 |
| 用户体验 | 开发友好界面,提供语音提示和个性化设置。 |
系统拓展应用
除了为喉切除患者提供交流支持外,该系统还有可能拓展到其他领域。例如,可以应用于嘈杂环境下的语音识别,通过唇读技术辅助提高语音识别的准确性。此外,还可以与虚拟现实(VR)、增强现实(AR)技术相结合,为用户提供更加沉浸式的交流体验。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(移动设备唇读语音增强系统):::process --> B(嘈杂环境语音识别):::process
A --> C(与VR/AR技术结合):::process
B --> D(拓展应用领域):::process
C --> D
总结
自行车共享停靠站识别和移动设备唇读语音增强系统的研究都具有重要的现实意义。前者有助于改善城市交通状况,推动可持续发展;后者为喉切除患者提供了更好的交流解决方案。通过不断地优化和拓展,这两个系统有望在未来发挥更大的作用,为人们的生活带来更多的便利和改变。在未来的研究中,我们应该继续关注这些领域的发展,结合新技术和新方法,不断提升系统的性能和用户体验。
超级会员免费看
1321

被折叠的 条评论
为什么被折叠?



