- 博客(12)
- 收藏
- 关注
原创 ntlk入门函数解释(text相加, join, split, 数组坐标调用)
from __future__ import division;from nltk.book import *;def lexical_diversity(text): return len(text) / len(set(text)); #建立函数测算某个文本中所有单词出现的平均次数def percentage(count, total): return 1
2016-07-31 12:56:05
1285
原创 ntlk入门函数解释(concordance, similar, common_contexts)
代码来自 Natural Language Processing with Python一书注释为我参考书后自己的理解,本人刚刚学习相关领域,如有不正确的地方,欢迎指出
2016-07-30 17:09:23
4005
原创 PageRank算法简述
PageRank算法使得Google搜索引擎的搜索结果相比起应用该算法之前有了质的提升。互联网中的网页非常多,那么如何确定网站的可信度是搜索引擎必须要先处理的问题。而PageRank算法则用了一个比较科学的方法处理这个问题:即一个网页被越多其它网页链接,他受到的普遍承认和信赖也就越高。当然,如果单单是这样还是比较不合理的,对于一些本身信赖度就比较高的网页,应该分配给这些网页比较高的权重。
2016-07-27 10:34:26
752
原创 浅谈信息的度量
就我个人而言觉得信息的度量是十分难量化的。也的确是这样,平日一个人说的一句话有多少信息是很难度量得到的。可是在自然语言处理中,信息度量的量化又十分重要。《数学之美》一书中吴军先生举了一个非常好的例子。他假设了一种情形,他向一个人猜测1-32号足球队伍中哪支队伍是世界杯的冠军,他如果采用五五分的方法逐步缩小范围那么需要五次就能知道哪支队伍是冠军,假设每向对方询问一次需要花费一元,那么谁是世界杯冠军这
2016-07-21 23:27:18
6211
原创 隐含马尔可夫模型
语言和通信之间存在天然的联系。两个人对话的时候说话的一方就相当于是信息源,而声带、空气等就相当于是传输的通道,听的一方相当于信息的接收方。那么现在要做的就是根据接收端的观测信号o1, o2, o3...推测信号源发送的信息s1,s2,s3...。其实这就需要从所有的源信息中找到最可能产生出观测信号的哪一个信息即P(s1,s2,s3...|o1,o2,o3...)需达到最大值。根据贝
2016-07-20 10:47:49
2360
原创 浅谈中文分词法
在自然语言的处理中,应该以词为单位进行,对于西方语言词与词之间有明显的分隔符,但是东方的语言(中文、韩文、日文等)则没有明确的分界符。因此,对于这些没有明显分界符的语言,需要先进行分词再进行自然语言处理。分词方法最容易想到的是查字典的方法,把一个句子,从左到右扫描一遍遇到词典里面有的词就标识出来,遇到复合词则选择匹配到的最长字符串为结果(例如,上海交通大学。上海,交通,大学都是词,但是
2016-07-17 17:15:03
775
原创 统计语言模型简述
最近在学习机器学习、自然语言处理相关知识。就我目前接触的范围来说,这两方面数学占的比重还是极大的。机器学习的课程我推荐coursera上的machine learning课程。而自然语言处理的大致了解我觉得可以从“数学之美”这本书开始着手。本文重点对我看了数学之美的几个章节的知识点进行总结归纳。在上世纪末基于规则的自然语言处理和基于统计的自然语言处理处于相持阶段。
2016-07-16 16:16:24
3508
原创 Linux下,ln、cp、mv、rm命令对文件链接数和索引节点号的影响
为了探究Linux下,ln、cp、mv、rm命令对文件链接数和索引节点号的影响,先创建一个文件夹test,以及对应的文件test.txt内容如下然后开始创建对应的硬链接文件。可以看出,硬链接产生的文件的索引节点号和源文件相同,且文件链接数从1变成了2。现在修改test1.txt中文件,添加一行内容。两个文件的内容都发生改变。因为硬链接产生的文件和源文件共同指向磁盘上的同
2016-05-28 17:47:40
4273
原创 Linux下Apache和Tomcat的整合
最近在服务器上进行了Apache和Tomcat的整合,让用户对jsp等页面发起的访问可以转交给Tomcat处理,使得Apache服务器支持jsp页面的访问。首先需要的是配置好JAVA以及Apache还有Tomcat。相关配置方法网络上有很多,在这里不一一赘述。配置完成后可以通过指令java -version以及javac来检测java的配置是否成功。Apache和Tomcat的验证可以直接
2016-05-21 13:02:38
8556
原创 C++关键字unisigned的讨论
C++的变量类型大家都十分熟悉,主要是bool,char,int,long,double等。这些基本类型中有的可以用关键字signed和unsigned进行修饰。 signed和unsigned关键字修饰的变量的区别在于最高位是否充当符号位存在。经过unsigned关键字修饰后的变量类型,因为最高位不再充当符号位而是用来存储数值,因此可表示的最大数字会比signed要大。比如,8
2016-01-27 23:56:10
1586
原创 浅谈质点弹簧模型
随着计算机的发展,虚拟现实技术越来越受到大家重视。无论是医疗领域还是游戏领域,大家都在尽力研究,让自己在计算机内模拟的物体不断逼进真实。而在模拟现实物体的过程中,大家最为关注的是弹性物体的模拟。弹性物体的模拟有一种模型被广泛采纳,这就是质点弹簧模型。这种模型因为他本身的简单、快捷而受到许多研究者的青睐。但是这种模型的仿真度却始终存在一定的问题。本文就是对质点弹簧模型做一个初步的介绍。
2015-11-27 19:51:42
10872
原创 模糊专家系统概述
在刚接触计算机的时候我就有了一个疑问,计算机世界说到底只有0和1,那么这个世界有许多并不是那么清晰的事情应该如何表达。而最近我看到了有关模糊专家系统的介绍,同时也一定程度上解答了我这个问题。 根据Michael Negnevitsky著的Artificial Intelligence中的定义,专家系统即在狭窄领域,以规则形式表达知识,使用符号推理解决问题。同时专家系统也被要求能处
2015-08-13 00:09:41
5117
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人