
nlp
文章平均质量分 59
高斯拟合的周萌萌
搬砖。。搬砖
展开
-
布尔检索和向量空间模型——nlp基础学习笔记
首先说布尔检索,顾名思义 用0,1 代表真假值来进行检索。比如两句话 我爱吃鸭, 他爱吃鸡可以构造出一个二维矩阵:横坐标是每一句话包含的信息,纵坐标是所有文字 句子1 句子2 句子n。。。。你00。。我10。。他01。。吃11。。等等。。。。。当用户想要检索某些文字的时候 直接查找对应的文章就好了。但是这样表述太浪费空间,远远不够实践所需的条件,所以倒排索引就应运而生。正排索引就是像上...原创 2017-07-06 17:38:56 · 2513 阅读 · 0 评论 -
几种字符串匹配的方法,以及一个讲解的很清晰的KMP匹配
1,普通的穷举法暴力破解就是类似于建立敏感词字典树那种感觉,两个角标,两个循环,一点一点比较。 2,Rabin-Karp算法 比第一个算法高级一点,是用hash值的思想来比较的,先算出要比较的字符串的hash值,再一段一段的算出待比较字符串字串的hash值,这个时候,如果hash值不同,自然进入下一个字串的比较,如果hash值相同,再用一个一个character对比的方法,转载 2018-01-10 06:20:30 · 885 阅读 · 1 评论 -
压缩的类别——static semi-static adaptive
文件的压缩一直都是互联网非常重要的一个环节,它的直接作用就是服务于文件的传输。文件的压缩可以按照压缩方式分为三个类别, static 静态压缩, semi-static 半静态压缩和 adaptive,适应性压缩。static:利用已有的数据集直接进行压缩。比如,用字典压缩一个文本,每一个单词都可以对应到这个单词的索引,如几页几行(便于理解,假设这种表示方式会节省bit的情况下)。原创 2018-01-29 06:52:58 · 566 阅读 · 1 评论 -
自然语言处理NLP——从发展历程简述word2vector好在哪里?
word2vec是极简主义的谷歌公司开发出来的一套工具,主要问题是解决文本词的预测问题,即给定上下文,得到该位置最大可能的结果。在此之前有很多功能类似的方法,比如统计模型中的Ngram模型。但是这个模型存在很多问题。首先 一阶模型忽略了词与词之间的顺序关系,本质上与向量空间模型,没什么区别。而三阶以上的模型,首先计算量太大,其次,段落与段落之间,句子与句子之间一些词语也会共现,对于整体的效果不是很...原创 2018-02-10 03:10:44 · 3287 阅读 · 0 评论 -
自然语言处理NLP——情感分析(Sentiment Analysis)简述
基于文本的情感分析,主要关注文章中的主观句,所以,subjective classifier即将主观句从文本中分离出来,就是整个情感分析的第一步。一般来说,这个方法是基于规则的分类方法——句子中包含n(一般为2)个表达情感的词语时就认为这个句子是主观句。对于这个问题,Bing Liu 给出了一个情感分析的模型,对于非比较主观句而言,分为五个成分:O 为实体对象F 为实体特征SO 为原创 2018-01-30 06:48:15 · 21948 阅读 · 0 评论 -
理解感知器perceptron,以及感知器如何应用
感知器是一个1958年被提出的机器学习算法,到今天仍在使用。它是一个有监督学习的线性回归解决二分类问题。主要解决的问题就是在给定训练集(data,label)的条件下,如何给每个数据找到一个特有的权重,使得最终的结果可以拟合训练数据各自的标签分类。这个时候可以定义一个线性的模型(比如:文本情感分类中, 模型=sum(词频*权重)),将得到的结果与一个阈值(比如是0)进行比较,大于0就是正向的,小于...原创 2018-02-27 01:09:16 · 2247 阅读 · 0 评论 -
SVM (support vector machine)一个在svm文章中 你可能可以看懂的版本。
鉴于网上所有博客都是上来就贴公式,本人在学习的时候,根本没有办法理解svm到底要干什么,所以有了这篇稍微通俗一点的讲解并且附上本人的学习资料。(u其实就是x)关于第一步的解释: 我们把坐标系中的点都看作是向量(坐标系就是你选取的feature),w 是分界线的垂直向量, 根据图上的公式,我们可以求任何一个点 在决策线的垂直方向上的投影。 根据这个投影长度是不是超过决策线,我们就可以判断这个点的分类...原创 2018-05-22 07:30:29 · 1448 阅读 · 0 评论