高级特征工程、NLP算法与规则系统
1. 高级特征工程与NLP算法练习
在深入学习之前,有一个阅读练习。需要阅读关于Para2vec、Doc2vec和GloVe的研究论文。此外,还可以探索是否有方法能找到连续字符串(如DNA模式)的向量表示。这个练习的主要目的是让我们了解研究工作是如何开展的,同时也可以思考向量表示的其他方面并尝试解决相关挑战。
2. 深度学习中向量化的重要性
2.1 文本数据转换为数值格式的原因
计算机无法直接理解自然语言(NL),因此需要将NL输出转换为数值格式。有多种词嵌入技术以及一些基本统计技术,如索引、tf - idf、独热编码等,可将文本输入转换为数值格式。选择哪种技术完全取决于NLP应用。将NL输入转换为数值格式主要有两个原因:
- 计算机只能理解数值数据,所以必须将文本数据转换为数值数据。
- 计算机擅长对给定的数值数据进行计算。
2.2 深度学习简介
当神经网络有很多层时,称为深度神经网络。使用多层深度神经网络,结合大量数据和计算能力来开发NLP应用,就称为深度学习。
2.3 向量化的作用
向量化是一个坚实的数学概念,易于理解和处理。如今,Python有很多优秀的库,使处理高维向量形式的数据变得更加容易。深度学习范式严重依赖向量化和矩阵概念,因此要掌握深度学习,需要了解向量和矩阵。
深度学习应用在处理视频、音频等输入数据时也会使用向量。视频和图像会转换为密集向量格式,而对于文本输入,word2vec是从单词生成向量的基本构建块。Google TensorFlow使用word2vec作为基本构建
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



