JamesWH-优快云博客

翻译论文翻译：Speech Recognition with Weighted Finite-State Transducers

摘要：本文介绍了基于WFST的语音识别的一般形式和算法框架。这些转换器为语音识别系统的主要部件提供了通用自然的表示形式，包括HMM模型，上下文相关模型，发音词典，统计语法，以及word或者phone的点阵。介绍了用于构建和优化转换器模型的通用算法，包括组合模型的组成，加权确定，最小化以用于优化时间和空间的要求，以及为语音识别最佳的重新分配过度权重的权重推演算法。详细说明了这些方法在大词汇量任务中的...

2020-02-02 20:46:34 1188

翻译文档翻译：What Are Acoustic Landmarks, and What Do They Describe?

What Are Acoustic Landmarks, and What Do They Describe? In speech acoustics, landmarks are patterns that mark certain speech-production events. Speechacoustic landmarks come in two classes: peak and a...

2019-07-30 22:39:46 448

原创论文翻译：Convolutional Neural Networks for Small-footprint Keyword Spotting

Abstract:我们探索使用CNNs进行小型关键词检测（KWS）任务，CNNs对KWS是有吸引力的，因为其的参数远少于DNN。我们在工作中考虑两种不同的应用，一种是限制KWS系统的乘法次数，另一种是限制参数数量。我们提出新的CNN架构来解决每个应用程序的限制。我们发现，与DNN相比，CNN架构提供的错误拒绝率（FRR）相对提高了27-44％，同时符合每种应用的约束条件。 1.Introduct...

2018-11-06 15:19:01 4772 4

原创论文翻译：Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting

摘要：关键词定位（KWS）是人机技术接口的重要组成部分，在低误报（FA）速率下最大化检测精度，同时最小化占用空间，延迟和复杂性是KWS的目标。为实现这些目标，我们研究卷积循环神经网络CRNNs。被大量一流语音识别系统的启发，我们结合卷积层和循环层的优势，利用局部结构和远程背景。我们分析了架构参数，提出训练策略去提高性能，只有大约230K参数时，我们的CRNN模型达到了可接受的低延迟，在5dB信噪比...

2018-11-05 17:21:37 2005

原创 what is axis in numpy ?

import numpy as np a = np.array([[1,2], [3,4]]) sum0 = np.sum(a, axis=0) sum1 = np.sum(a, axis=1) print(sum0) print(sum1) b = np.array([[[1,2,3],[4,5,6],[7,8,9]],[[1,2,3],[4,5,6],[7,8,9]]]) sum...

2018-07-06 17:17:21 235

翻译 coco2017update

COCO2017的主要变化：根据社区反馈的train和val两部分，将原来的80K/40K更新为现在的115K/5K。使用的是相同的图像，并没有提供新的关于检测和关键点的注释。然而，在新的2017中，stuff注释有40K的训练图像（来自于2017的115K全部训练集的子集）和5K的验证集

2017-12-26 17:34:41 319

原创 tf-faster-rcnn代码理解之获取数据集对象imdb,roidb,valroidb

获取数据集对象的函数为combined_roidb()，该函数进一步调取factory.py中的get_imdb函数： def get_imdb(name): """Get an imdb (image database) by name.""" if name not in __sets: raise KeyError('Unknown dataset: {}'.forma

2017-11-21 13:46:16 4052 6

原创 tf-faster-rcnn代码理解之trianval_net.py

原始工程代码是通过tf-faster-rcnn\experiments\scripts目录下的train_faster_rcnn.sh调用tf-faster-rcnn\tools\trainval_net.py进行模型训练。为了方便使用pycharm对整个训练工程进行调试，故修改trianval_net.py使之不需要shell脚本引导，可以直接运行。修改之后的代码如下： # ---------

2017-11-19 21:00:30 3953 7

原创通过xml文件给图像加目标框的python模块

系统环境为ubuntu16.04 编译器为python2.7 模块中的函数需要添入三个变量，分别为待处理图像的文件夹路径，xml文件夹路径，处理后图像的文件夹路径 from __future__ import divisionimport osimport xml.dom.minidomimport cv2def read_xml(ImgPath, AnnoPath, Savepat

2017-11-04 18:04:35 1475

原创 caltech pedestrian detection数据集格式转换

最近在使用行人检测数据集训练faster rcnn模型，由于官网下载的数据集的图像和标签格式不符合，可使用其自带的函数将图像和标签转为jpg和txt格式。系统环境为Ubuntu16.04 编译器为matlab2016a 代码如下： dataDir='./datasets/caltech/'; addpath(genpath('./external/code3.2.1')); addp

2017-11-04 17:43:31 2446 1

原创关于pycharm加在caffe模块报错的解决办法

在~/.bashrc中加入你的caffe/python所在的环境变量。在终端中切换root权限，然后用命令行打开pycharm则可避免报错。

2017-05-21 11:27:04 536

原创用matlab制作自动处理文件夹内文件的程序

最近在制作一个图片检测的程序，发现图片好多一个一个跑程序然后记录数据好烦，于是就给程序加上了如下框架。 clc; clear; files = dir('D:\Matlab\*.jpg'); Mat = zeros(940,940,3,20,'uint8'); for i = 1:numel(files) Mat(:,:,:,i) = imread(files(i

2016-09-09 19:36:55 479

原创 MFC程序的运行过程和消息映射机制

最近需要做一些图像识别和分类的小例程，在老师的建议下学习Opencv+MFC平台。之前一直在做单片机方面，因为有main函数的显式存在，觉得对程序的控制度很好，一切都有迹可循，但是在接触MFC之后觉得程序执行的相比之前不够明朗。在看到孙鑫的《VC++深入详解》之后觉得有所帮助，现写下一个小结，希望能帮助初学者。在测试程序执行过程的时候可以通过打断点来查看程序是否经过这个函数。下面写下MFC

2016-08-30 16:56:21 382

原创 Oral Speech

Hello everyone,My name is James. I am happy to join with you today in what is the ethics. It’s the branch of philosophy that looks into right and wrong moral behavior, and moral language. For on

2016-07-15 17:42:22 507