
nlp
默默努力的人
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
主题模型(LDA)
原创 2020-04-23 23:27:33 · 439 阅读 · 0 评论 -
NLP实习笔试面试题汇总五
一、线性回归与逻辑回归的联系与区别 什么是机器学习 利用大量的数据样本,使得计算机通过不断的学习获得一个模型,用来对新的未知数据做预测。 - 有监督学习(分类、回归) 同时将数据样本和标签输入给模型,模型学习到数据和标签的映射关系,从而对新数据进行预测。 - 无监督学习(聚类) 只有数据,没有标签,模型通过总结规律,从数据中挖掘出信息 强化学习 强化学习会在没有任何标签的情况下,通过先尝试...转载 2020-05-09 09:18:15 · 806 阅读 · 0 评论 -
NLP实习笔试面试题汇总四
一、决策树有哪些常用的启发函数?如何对决策树进行剪枝? - 决策树的分类 离散性决策树:离散性决策树,其目标变量是离散的,如性别:男或女等; 连续性决策树:连续性决策树,其目标变量是连续的,如工资、价格、年龄等; 决策树相关的重要概念: (1)根结点(Root Node):它表示整个样本集合,并且该节点可以进一步划分成两个或多个子集。 (2)拆分(Splitting):表示将一个结点拆分成多个子集...原创 2020-05-09 09:18:41 · 706 阅读 · 0 评论 -
NLP实习笔试面试题汇总三
一、如何对中文分词问题用隐马尔可夫模型进行建模和训练? 二、最大熵隐马尔可夫模型为什么会产生标注偏置问题,如何解决? 三、常见的概率图模型中,哪些是生成式模型,哪些是判别式模型? 四、使用PyTorch简要写一个RNN算法 - PyTorch入门 所有的框架都是基于计算图的。计算图分为静态和动态的。静态是先先定义后执行,动态图是运行过程中被定义的。 Tensor是PyTorch...原创 2020-05-09 09:20:48 · 669 阅读 · 0 评论 -
NLP实习笔试面试题汇总二
一、LSTM中各模块分别使用什么激活函数,可以使用别的激活函数吗? 关于激活函数的选取。在LSTM中,遗忘门、输入门、输出门使用Sigmoid函数作为激活函数;在生成候选记忆时,使用双曲正切函数Tanh作为激活函数。 值得注意的是,这两个函数都是饱和的,即在输入达到一定值的情况下,输出不会发生明显变化。如果是非饱和的激活函数,比如ReLU,那么就难以实现门控的效果。 Sigmoid函数的输出在0~...原创 2020-05-09 09:19:26 · 2255 阅读 · 0 评论 -
NLP实习笔试面试题汇总一
一、NLP领域里的8种文本表示方式及优缺点 1、概述 文本表示可以分为: 离散式表示(Discrete Representation); 分布式表示(Distributed Representation); 2、离散式表示(Discrete Representation) 2.1 One-Hat(独热编码) 将词或字表示成一个向量,该向量的维度是词典(或字典)的长度,词典是通过语料库生成的,该...原创 2020-05-09 09:19:36 · 3832 阅读 · 0 评论 -
倒排表
原创 2020-03-26 12:01:42 · 581 阅读 · 0 评论 -
词向量—分布式表示方法
一、为什么不能用one-hot 在用one-hot表示单词的时候,用欧氏距离或者余弦相似度计算句子的相似度容易陷入所有的相似度的值相等,无法进行判断的情况,不能表示语义的相似度。因为向量的大小与词的大小是有相关性的,有稀疏性的特征 二、分布式表示方法 三、怎么训练分布式表示方法 四、怎么用词向量表达句子向量 ...原创 2020-03-26 11:53:39 · 3286 阅读 · 1 评论 -
Tf-idf Representation
文档1: d1=(1log(3/2),1log(3/1),1log(3/1),1log(3/3),0,0,0,0,0)原创 2020-03-26 10:39:36 · 266 阅读 · 0 评论 -
动态规划问题—0-1背包问题
def bag(n, c, w, v): """ 测试数据: n = 6 物品的数量, c = 10 书包能承受的重量, w = [2, 2, 3, 1, 5, 2] 每个物品的重量, &n...原创 2020-03-25 20:59:11 · 372 阅读 · 0 评论 -
NLP—句子相似度的计算
debuwif原创 2020-03-25 20:57:40 · 299 阅读 · 0 评论 -
文本表示(词和句子的表示方法)
一、单词的表示(one-hot) count方法的缺点: 不考虑上下文语义 是一个稀疏矩阵 有些单词出现次数非常大 解决方法: 使用unigram word2vec方法 加log原创 2020-03-25 17:36:17 · 517 阅读 · 0 评论 -
过滤词—Filtering Words
对于NLP的应用,我们通常先把停用词、出现频率很低的词汇过滤掉,类似于特征筛选的过程 建立停用词的方法: # 方法1:自己建立一个停用词词典 stop_words=["the","an","is","there"] # 在使用时:假设word_list包含了文本里的单词 word_list=["we","are","the","students"] filtered_words=[word for...原创 2020-03-23 21:46:27 · 941 阅读 · 0 评论 -
输入错的单词,寻找正确的单词
步骤: 假如集合c中的单词为:apple,app 计算p©-----p(apple)和p(app),求apple和app在文章中出现的频次 假如用户输入的单词是appl,求最有可能成为正确的字符串是哪一个(apple or app) p(appl/apple)*p(apple) 和 p(appl/app)*p(app) ...原创 2020-03-23 17:19:38 · 232 阅读 · 0 评论 -
二、NLP学习之RNN模型
RNN模型(Recurrent Neural Network) 一、原始RNN模型 x是一个向量,表示输入层的值,s也是一个向量,表示隐藏层的值(这里的隐藏层只画了一个节点,其实这一层是有多个节点的,节点的数量与向量s的维度相同) U是输入层到隐藏层的权重矩阵,O也是一个向量,表示输出层的值,V是隐藏层到输出层的权重矩阵 循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x,还取决于上一次隐藏...原创 2020-03-14 21:42:28 · 511 阅读 · 0 评论 -
一、认识NLP
NLP定义: NLP的challenge(挑战)是:语言有多种意思 解决方法:看句子的context(上下文) 机器翻译系统: 传统方法:构建语料库,输入一句话,想看这句话的意思,一个单词一个单词从语料库找意思,用统计分析方法求概率 传统方法的缺点: 可能出现语料库没有这个单词的情况(out of vocabulary)—(oov) 有一词多义的情况,不好区分意思 输出的语序不一定正确 ...原创 2020-03-14 14:28:18 · 343 阅读 · 0 评论