
自然语言处理学习
学习自然语言处理的资料
ChanYeol666
在软件学院中学了日语
展开
-
Notes on language modeling-COMS W4705: Natural Language Processing-学习笔记
COMS W4705: Natural Language Processing语言模型在广泛的应用中非常有用,最明显的也许是语音识别和机器翻译。 在语音识别中,语言模型与为不同单词的发音建模的声学模型相结合:一种思考的方法是,声学模型会生成大量候选句子以及概率;然后使用语言模型根据这些可能性成为该语言中的句子的可能性对这些可能性重新排序。 语言模型中使用最为广泛的模型叫做Markov模型。Trigram语言模型,这是一类重要的语言模型,直接建立在Markov模型的思想上。 Bias-Varianc原创 2020-10-15 09:16:50 · 171 阅读 · 0 评论 -
机器学习(Machine Learning)- 吴恩达(Andrew Ng)-学习笔记
P1-P23新闻事件分类的例子,就是那个谷歌新闻的例子,可以用一个聚类算法来聚类这些文章到一起,所以是无监督学习。细分市场的例子,可以当作无监督学习问题,因为只是拿到算法数据,再让算法去自动地发现细分市场。 Octave,是免费的开源软件,使用一个像 Octave 或 Matlab的工具,许多学习算法变得只有几行代码就可实现。 代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。(导师更正:理论是,任何非负函数都可以作代价原创 2020-10-11 20:12:34 · 427 阅读 · 0 评论 -
对dropout的理解详细版
对dropout的理解详细版训练的时候需要dropout,测试的时候直接去掉。 dropout可以比较有效地减轻过拟合的发生,一定程度上达到了正则化的效果。消除减弱了神经元节点间的联合适应性,增强了泛化能力。 Dropout策略在卷积隐藏层中使用较少。 如果你既不想在训练的时候,对x进行放大,也不愿意在测试的时候,对权重进行缩小(乘以概率p)。那么你可以测试n次,这n次都采用了dropout,然后对预测结果取平均值,这样当n趋近于无穷大的时候,就是我们需要的结果了。 需要测试的时候将输出结果乘以转载 2020-10-11 17:12:49 · 358 阅读 · 0 评论 -
NLP-Beginner:自然语言处理入门练习-任务一
NLP-Beginner:自然语言处理入门练习任务一:基于机器学习的文本分类深度学习项目,在训练之前,一般均会对数据集做shuffle,打乱数据之间的顺序,让数据随机化,这样可以避免过拟合。 Batch:批处理,顾名思义就是对某对象进行批量的处理。训练神经网络时,在数据集很大的情况下,不能一次性载入全部的数据进行训练,电脑会支撑不住,其次全样本训练对于非凸损失函数会出现局部最优,所以要将大的数据集分割进行分批处理。batch_size就是每批处理的样本的个数。 过大的batch_size会降低梯原创 2020-10-11 16:57:24 · 560 阅读 · 0 评论 -
神经网络与深度学习(邱锡鹏)-学习笔记
神经网络与深度学习第一章 绪论第二章 机器学习概述第三章 线性模型深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法。人工神经网络,也简称神经网络,是一种受人脑神经系统的工作方式启发而构造的一种数学模型。在机器学习领域,神经网络是指由很多人工神经元构成的网络结构模型,这些人工神经元之间的连接强度是可学习的参数。 深度学习所要解决的问题是贡献度分配问题,而神经网络恰好是解决这个问题的有效模型。 损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异。 线性回归是机原创 2020-10-11 16:50:58 · 1502 阅读 · 0 评论 -
统计学习方法(第二版)-学习笔记
第1章 统计学习及监督学习概率统计学习是关于计算机基于数据构建概率统计建型并运用模型对数据进行预测与分析的一门学科。统计学习研究的对象是数据。 统计学习一般包括监督学习(从标注数据中学习预测模型的机器学习问题),无监督学习(从无标注数据中学习预测模型的机器学习问题),强化学习(智能系统在与环境的连续互动中学习最优行为策略的机器学期问题)。 统计学习方法都是由模型,策略和算法构成的。 统计学习方法具体采用的损失函数未必是评估时使用的损失函数。 正则化是结构风险最小化策略的实现,是在经验风险上加一个原创 2020-10-11 16:45:57 · 251 阅读 · 0 评论 -
Python自然语言处理中文版-学习笔记
第 1 章 语言处理与 Python频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频率)。 自然语言处理研究的一个重要目标一直是使用浅显但强大的技术代替无边无际的知识和推理能力,促进构建“语言理解”技术的艰巨任务的不断取得进展。 给出一个德文和英文双语的文档或者一个双语词典,我们就可以自动配对组成句子,这个过程叫做文本对齐。 离散图中每一个竖线代表一个单词,每一行代表整个文本。 一个词类型是指一个词在一个文本中独一无二的出现形式或拼写。 程序设计的一个关键特征是让机器原创 2020-10-11 16:12:23 · 356 阅读 · 0 评论