20190516

最新推荐文章于 2022-11-08 18:46:53 发布

原创最新推荐文章于 2022-11-08 18:46:53 发布 · 259 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别

学习笔记专栏收录该内容

68 篇文章

订阅专栏

本文是阅读网站和代码的笔记。涉及机器学习的数据特征表示，如One - Hot编码，探讨将语义融入词表示的方法。介绍语言模型，包括统计语言模型、CBOW和Skip - Gram Model。还提及词向量、Python命令行工具argparse模块使用，以及深度学习参数调整、语音识别例子和顶级深度学习课程等信息技术相关内容。

以下为阅读这个网站的笔记

One-Hot编码,又称为一位有效编码，独热编码的翻译实在是太难听也难懂了

先提下数据特征表示问题。数据表示是机器学习的核心问题，在过去的Machine Learning阶段，大量兴起特征工程，人工设计大量的特征解决数据的有效表示问题。而到了Deep Learning，想都别想，end-2-end，一步到位，hyper-parameter自动帮你选择寻找关键的特征参数。

传统的独热表示（ one-hot representation）仅仅将词符号化，不包含任何语义信息。如何将语义融入到词表示中？Harris 在 1954 年提出的分布假说（ distributional hypothesis）为这一设想提供了理论基础：上下文相似的词，其语义也相似。Firth 在 1957 年对分布假说进行了进一步阐述和明确：词的语义由其上下文决定（ a word is characterized by thecompany it keeps）。

用一句简单的话说，就语言模型就是计算一个句子的概率大小的这种模型。有什么意义呢？一个句子的打分概率越高，越说明他是更合乎人说出来的自然句子。

前面提过，one-hot表示法具有维度过大的缺点，那么现在将vector做一些改进：1、将vector每一个元素由整形改为浮点型，变为整个实数范围的表示；2、将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间。如图示：这也是词向量又名词嵌入的缘由了。

顺便说说这两个语言模型。统计语言模型statistical language model就是给你几个词，在这几个词出现的前提下来计算某个词出现的（事后）概率。CBOW也是统计语言模型的一种，顾名思义就是根据某个词前面的C个词或者前后C个连续的词，来计算某个词出现的概率。Skip-Gram Model相反，是根据某个词，然后分别计算它前后出现某几个词的各个概率。

Word Embedding与Word2Vec

tensorflow生成的各种模型文件都是做什么用的

以下为读代码的笔记：

Python 命令行工具 argparse 模块使用详解

argarse.ArgumentParser.parse_known_args()解析
大致意思就是：有时间一个脚本只需要解析所有命令行参数中的一小部分，剩下的命令行参数给两一个脚本或者程序。在这种情况下，parse_known_args()就很有用。它很像parse_args()，但是它在接受到多余的命令行参数时不报错。相反的，返回一个tuple类型的命名空间和一个保存着余下的命令行字符的list。

深度学习中一些参数的调整
batchsize * step = epoch * image_num

tensorflow 官方语音识别例子的翻译版（speech_commands）
https://blog.youkuaiyun.com/tmb8z9vdm66wh68vx1/article/details/78188510

李飞飞、吴恩达、Bengio等人的15大顶级深度学习课程
http://www.cnblogs.com/lhuser/p/9639658.html