- 博客(14)
- 收藏
- 关注
原创 马尔科夫与隐马尔可夫总结
马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。如果对于过去状态的条件概率分布仅是的一个函数,则在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。
2017-08-04 08:59:32
6094
原创 nltk中文语料库使用总结
[BracketParseCorpusReader]from nltk.corpus import BracketParseCorpusReadercorpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced" # r"" 防止转义file_pattern = r".
2017-07-28 16:29:49
2204
原创 nltk主要应用总结
获取和处理语料库 nltk.corpus 语料库和词典的标准化接口字符串处理 nltk.tokenize, nltk.stem 分词,句子分解提取主干搭配发现 nltk.collocations t-检验,卡方,点互信息 PMI词性标识符 nltk.tag n-gram,backoff,Brill,HMM,TnT分类 nltk.classify, nltk.cluster
2017-07-27 15:15:23
1780
原创 聚类总结
聚类,就是将相似的事物聚集在一 起,而将不相似的事物划分到不同的类别的过程。average-linkage算法比较稳定,可以大致地判断聚类数目,聚类效果也不错,在数据量比较小的时候可以使用。K-means是最为常用的聚类方法之一,有着一个很关键的优点:快.K-means迭代地进行两步操作。首先随机地给出k个中心的位置,然后把每个数据点归类到离它最近的中心,构造了k个cluste
2017-07-27 10:43:44
410
转载 n-gram
该模型第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。 对于一个句子T,我们怎么算它出现的概率呢?假设T是由词序列W1,W2,W3,…Wn组成的,那么P(T)=P(W1W2W3Wn)=P(W1)P(W2|W
2017-07-26 10:03:51
626
转载 依存语法:从短语结构树转换为依存树
与短语结构语法比较起来,依存语法没有词组这个层次,每一个结点都与句子中的单词相对应,它能直接处理句子中词与词之间的关系,而结点数目大大减少了,便于直接标注词性,具有简明清晰的长处。特别在语料库文本的自动标注中,使用起来比短语结构语法方便。一般而言,短语结构语法是与依存语法等价的。因此,如果我们在短语结构分析之后得到了短语结构树,可以自动地把这样的短语结构树转换为依存树。例如,
2017-07-25 10:53:32
2665
转载 LSTM+CRF介绍
LSTM和CRF要解决问题的:序列标注问题(中文分词、词性识别、命名实体识别、机器翻译等)本文先介绍LSTM的基本结构,再介绍LSTM与CRF结合的方法(CRF的具体算法介绍不包括在本文中)。LSTM是RNN的一种特殊形式,首先看一下RNN单元的基本结构定义:简单解释一下,RNN其实是希望能模拟人类大脑处理信息的方式,人类的大脑所接收的信号可以分为外部(即我们的感知,视觉、听觉
2017-07-21 16:26:27
20799
1
转载 TensorFlow练习1: 对评论进行分类
# python3import numpy as npimport tensorflow as tfimport randomimport picklefrom collections import Counterimport nltkfrom nltk.tokenize import word_tokenize"""'I'm super man't
2017-07-17 15:01:52
408
原创 arraylist vector linkedlist
ArrayList是为可变数组实现的,当更多的元素添加到ArrayList的时候,它的大小会动态增大。它的元素可以通过get/set方法直接访问,因为ArrayList本质上是一个数组。LinkedList是为双向链表实现的,添加、删除元素的性能比ArrayList好,但是get/set元素的性能较差。Vector与ArrayList相似,但是它是同步的。大部分程序员都使用Arra
2017-07-06 16:26:38
249
转载 Servlet的运行过程
Servlet程序是由WEB服务器调用,web服务器收到客户端的Servlet访问请求后: ①Web服务器首先检查是否已经装载并创建了该Servlet的实例对象。如果是,则直接执行第④步,否则,执行第②步。 ②装载并创建该Servlet的一个实例对象。 ③调用Servlet实例对象的init()方法。 ④创建一个用于封装HTTP请求消息的HttpServletRequ
2017-07-05 11:06:58
356
转载 word2vec
word2vec 看的这个入的门 感觉师兄师姐在介绍的时候也会用到这些。http://blog.youkuaiyun.com/zhoubl668/article/details/24314769word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licsta
2017-07-04 14:55:23
305
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人