- 博客(14)
- 收藏
- 关注
原创 训练FunASR中实时语音识别paraformer模型
本文介绍了使用FunASR框架进行语音识别模型微调的完整流程。首先需要将Kaldi格式的wav.scp和text.txt数据转换为jsonl格式,通过FunASR提供的scp2jsonl工具实现。然后配置finetune.sh脚本,设置模型路径、数据路径、训练参数(如batch_size、epoch数、学习率等)及输出目录。使用deepspeed分布式训练启动训练任务,并通过TensorBoard监控训练过程。文章还详细说明了如何解决TensorBoard访问问题,包括端口绑定和防火墙设置等常见问题的处理方
2025-11-26 09:28:36
339
原创 本地部署单机版Qwen模型(GPU加速)
要在本地部署模型,并通过llama.cpp使用 GPU 加速推理,以下是详细的步骤,包括所需的工具、依赖项和配置。
2025-11-14 16:46:33
324
原创 linux系统上安装fastddsgen-python
用离线 Gradle 7.6 构建你本地的 Fast-DDS-Gen,然后用它自带的做-python生成。关键动作只有三个:在别的机子下好拷过来;修改的为;跑,然后用。# 若已装 Fast DDS 套件通常自带 fastddsgen;否则参考官方文档安装 fastddsgen# 先建输出目录# 分开生成(最稳妥)cmake ..cmake ..
2025-11-14 09:57:44
607
原创 VMare 内存占用存储空间越来越大问题 导致本机内存爆炸
我遇到的问题是在虚拟机中编译多次,几十每次编译结束都make clean也无法解决;如果出现:说明该盘没有空间新建一个快照需要在一个新的盘建立快照然后复制过去;2.用 vmware-vdiskmanager 合并快照链。是切片,别选它们)。旧硬盘(只从虚拟机移除,不要删除文件) →。导致内存满了,我们现在要做的是合并快照。3.在 VMware 里改用合并后的盘。是由于每次编译后都会生成一个镜像。→ 使用已有虚拟磁盘 → 选。最后虚拟机所在的盘直接满了,虚拟机设置 → 硬盘 →。→ 确认能正常开机。
2025-09-23 12:25:33
212
原创 常见电路分享
本文整理了11种实用电子电路设计方案:1)背靠背和双三极管防盗灌电路;2)Type-C 5V/3A取电电路;3)二极管钳位与防反接保护电路;4)PMOS防反接电路;5)ESP32自动下载电路;6)直流浪涌抑制开关;7)MOS管电平转换;8)RS485方向控制;9)RC加速三极管开关电路(利用电容特性提升导通速度)。这些方案涵盖电源管理、信号保护及接口控制等应用场景。
2025-08-25 09:50:13
188
原创 构音障碍(Dysarthria)语音识别
构音障碍()语音识别由于语音信号畸变大、可懂度低,是语音识别领域中最具挑战的问题之一。近年来,研究者基于等方法,提出了多种改进策略来提高识别准确率。以下是构音障碍语音识别中。
2025-06-26 10:29:34
5624
原创 2025高考一本中下段专业推荐和选科建议
对于一本边缘分数段的理科生,选对专业比选校名更重要。好就业的“硬核专业”(如计科、电气、自动化)国家政策扶持的新兴方向(如人工智能、网络安全)能考研上岸、未来有转型空间的学科只要专业选得对,即使学校不在985/211行列,一样可以实现逆袭读研、大厂就业、国企入编。
2025-06-25 11:41:44
2760
原创 测量双目摄像头畸变python,双目摄像头三维重建
你给出的畸变系数为(5 参数模型,OpenCV 默认模型):k=[k1,k2,p1,p2,k3]=[−0.1209,0.3210,−0.0036,0.0016,−0.2939]你给出的内参矩阵为:443.4514000443.32240326.4513244.62761。内参矩阵描述相机的内部几何特性和光学特性,形式为:K=fx000fy0cxcy1。畸变系数描述相机镜头的几何畸变,分为。其中这些参数需要根据自己需求进行修改。重投影误差: 0.0570 像素。
2025-05-26 16:43:33
757
原创 绘制棋盘格代码A4纸大小 Python代码
这个绘制棋盘格的代码,主要是方便在A4纸上打印,生成的棋盘格图片保存在你的根目录下。棋盘格方块尺寸(毫米) 25.4。棋盘格内角点数 11*7。
2025-05-26 16:38:23
271
原创 怎么读取Huggingface下载的Arrow文件包含哪些内容
变量,并将其赋值为要读取的 Arrow 文件的路径(这里是一个示例路径,你需要将其替换为实际的文件路径)。模块则主要用于处理 Arrow 的进程间通信(IPC)相关功能,比如读取和写入 Arrow 格式的文件。在huggingface上的Arrow数据集(使用的是PyArrow的Stream格式)库以流的方式读取指定路径的 Arrow 文件,并将读取到的数据批次转换为。,该对象用于以流的方式读取 Arrow 文件中的数据。,用于指定要读取的 Arrow 文件的路径。会逐批次地读取文件中的数据记录。
2025-04-17 14:06:57
782
原创 使用Pytorch构建语音模型和使用ESPnet构建自己的语音识别模型的区别
ASR 模型 | `Transformer`, `Conformer`, `RNN-Transducer`, `Hybrid CTC-Attention` | 语音识别主力模型 || SSL 模型 | `HuBERT`, `Wav2Vec2`, `WavLM` | 自监督预训练模型(可作为前端特征提取器) |- 下载好 `.pth`、`.yaml`、`.json`,放到 `models/pretrained/`缺点:你要了解 ESPnet 模型文件结构(`.yaml`、`.json`、`.pth`)
2025-04-17 11:50:01
684
原创 如何处理huggingface上下载的UA_speech数据集
python):print(f"正在加载数据集 split='{split}' from {data_dir}...")print("示例数据结构:", dataset[0]) # 调试用,可注释for i, example in tqdm(enumerate(dataset), total=len(dataset), desc="正在处理样本"):# 取出音频数组,确保转换为 np.float32 类型# 保存音频文件# 获取文本字段(兼容 text / target)
2025-04-17 11:33:21
461
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅