
语音识别
文章平均质量分 97
AI吃大瓜
计算机视觉高级研究员,主要从事人工智能AI算法研究工作;熟悉多模态大模型,RAG技术,小模型开发如人脸检测,人脸识别,活体识别以及2D/3D Pose(人体姿态估计),行人重识别ReID等深度学习开发工作,具有丰富的项目开发工作经验。
展开
-
C/C++实现librosa音频处理库melspectrogram和mfcc
本项目使用C/C++实现Python音频处理库librosa中melspectrogram和mfcc的计算,项目将对齐Python音频处理库librosa; Mel频谱图(Mel Spectrogram)和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)librosa.load:实现语音读取librosa.feature.melspectrogram:实现计算melspectrogramlibrosa.feature.mfcc:实现计算MFCC原创 2023-08-04 19:24:16 · 5723 阅读 · 11 评论 -
基于LSTM的序列预测: 飞机月流量预测
基于LSTM的序列预测: 飞机月流量预测循环神经网络,如RNN,LSTM等模型,比较适合用于序列预测,下面以一个比较经典的飞机月流量数据集,介绍LSTM的使用方法和训练过程。原创 2021-10-23 13:18:05 · 9449 阅读 · 1 评论 -
基于梅尔频谱的音频信号分类识别(Pytorch)
音频信号分类识别(Pytorch)本项目将使用Pytorch,实现一个简单的的音频信号分类器,可应用于机械信号分类识别,鸟叫声信号识别等应用场景源代码:1. 项目结构2. 环境配置使用pip命令安装libsora和pyaudiopip install librosapip install pyaudiopip install pydub3.数据处理(1)数据集Urbansound8KUrbansound8K是目前应用较为广泛的用于自动城市环境声分类研..原创 2021-10-19 09:00:00 · 46612 阅读 · 36 评论