
文本分类
文章平均质量分 73
cowboy_wz
My main reasearch interests are on data mining and machine learning.Email: chenhuiling.jlu AT gmail DOT com
展开
-
贝叶斯反垃圾邮件技术
一、 贝叶斯反垃圾邮件技术介绍 贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯过滤器是基于“自我学习”的智能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智能邮件过滤技术中,贝叶斯(Bayesian)过滤技术取得了较大的成功,被越来越多地应用在反垃圾邮件的产品中。原创 2010-04-04 11:52:00 · 7936 阅读 · 0 评论 -
布隆过滤器(Bloom Filter)
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash原创 2009-11-10 13:34:00 · 1058 阅读 · 0 评论 -
分词小议
全文信息检索系统中,创建倒排索引时应当使用什么分词方式一直是众说纷纭,毫无定论。具我所知,已有某某 paper “研究指出”采用二元切分的方式构建索引是“最好的”;也看到过园子里的一位兄弟认为单字切分最准确(sorry,忘记具体出处);当然,将某个基于词典或者共现频率的中文分词组件包装一下加入自己的项目中也是非常流行的做法。既然存在这么多的看法与做法,难免会让人生出一较高下或者明辨真伪的决心转载 2009-11-01 21:06:00 · 866 阅读 · 0 评论 -
Text mining and web mining
Text mining and web mining are two interrelated fields that have received a lot of attention in recent years. Text mining [1, 2] is concerned with the analysis of very large document collections an转载 2009-11-01 10:31:00 · 1572 阅读 · 0 评论 -
数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士
数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord of War)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47(AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我认为,在转载 2009-10-31 21:56:00 · 1027 阅读 · 0 评论 -
数学之美 系列九 -- 如何确定网页和查询的相关性
数学之美 系列九 -- 如何确定网页和查询的相关性[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包转载 2009-10-31 21:43:00 · 787 阅读 · 0 评论 -
数学之美 系列八-- 贾里尼克的故事和现代语言处理
数学之美 系列八-- 贾里尼克的故事和现代语言处理读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fred Jelinek)出生于转载 2009-10-31 21:31:00 · 1227 阅读 · 0 评论 -
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]世界上不可能有比二进制更简单的计数方法了,也不可能转载 2009-10-31 20:57:00 · 877 阅读 · 0 评论 -
朴素贝叶斯文本分类
俺不是大牛啊,只能写写这种浅显的文章了,算是抛砖引玉吧 naive bayes(朴素贝叶斯,下面简称NB ^_^)是ML中的一个非常基础和简单的算法,常常用它来做分类,我用它做过text classification。现在的研究中大概已经很少有人用它来实验了(除非是做base line),但确实是个很好的入门的算法,来转载 2009-10-30 18:11:00 · 5580 阅读 · 4 评论 -
中文分词
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在转载 2009-10-30 13:31:00 · 1572 阅读 · 1 评论 -
贝叶斯分类
First Step Find Classes: C1: buys_computer = ‘yes’ C2: buys_computer = ‘no’ Second Step Find P(C1) and P(C2) P( buys_computer = “yes”) = 9/14 = 0转载 2009-10-30 11:22:00 · 1527 阅读 · 0 评论 -
数学之美 系列十 有限状态机和地址识别
数学之美 系列十 有限状态机和地址识别地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。 一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。 每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件转载 2009-10-31 21:51:00 · 957 阅读 · 0 评论 -
数学之美 系列七 -- 信息论在信息处理中的应用
数学之美 系列七 -- 信息论在信息处理中的应用 http://googlechinablog.com/2006/05/blog-post_25.html 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语转载 2009-10-31 21:21:00 · 1214 阅读 · 0 评论 -
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜索一下“离散数学”这个词转载 2009-10-31 21:08:00 · 949 阅读 · 0 评论 -
数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型
数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答,就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函数的参数就可以了,这个过程称为模型的训练。最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(generalized iterative scali原创 2009-11-10 14:28:00 · 1431 阅读 · 0 评论 -
最大熵模型:读书笔记
胡江堂,北京大学软件学院 1. 物理学的熵 2. 信息论的熵 3. 熵和主观概率(一个简单注释 4. 熵的性质 4.1. 当所有概率相等时,熵取得最大值 4.2. 小概率事件发生时携带的信息量比大概率事件发生时携带的信息量多 5. 最大熵原理:直觉讨论 6. 最大熵原理:一个手工例子 7原创 2009-11-10 18:43:00 · 4153 阅读 · 2 评论 -
文本分类与聚类(text categorization and clustering)
1. 概述广义的分类(classification或者categorization)有两种含义:一种含义是有指导的学习(supervised learning)过程,另一种是无指导的学习(unsupervised learning)过程。通常前者称为分类,后者称为聚类(clustering),后文中提到的分类都是指有指导的学习过程。给定分类体系,将文本集中的每个文本分到某个或者某几个类别中转载 2009-11-02 21:03:00 · 12121 阅读 · 4 评论 -
计算广告学(Computational Advertising)CA
计算广告学是一门正在兴起的分支学科,它涉及到大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学。计算广告学所面临的最主要挑战是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。语境可以是用户在搜索引擎中输入的查询词(”Sponsored Search”),也可以是用户正在读的网页(”Content Match”以及”Display Ads”),还可以是用户正在看的电影原创 2009-11-22 13:34:00 · 7550 阅读 · 0 评论 -
OHSUMED数据集介绍
1. OHSUMED数据集介绍 本实验中采用OHSUMED测试数据集合(其也被用于第9 届国际文本检索竞赛TREC9 的文档过滤子竞赛)。OHSUMED 数据集合由William Hersh和他的同事们一起建立,其文档来源于医药信息数据库MEDLINE10,它包含了从1987 年到1991 年五年间270 个医药类杂志的标题和/或摘要,包含了348566个文档。一个OHSUMED 文档由8 个域原创 2009-11-22 13:29:00 · 5824 阅读 · 3 评论 -
语义和语用--转
《槛外人观察》【注】 语义和语用 周锡令 xlzhou0421@vip.sina.com 2003-3-29 据说,既涉及人工语言,又涉及自然语言的“符号学(Semiotics)”是由三部分组成的:语法、语义 和 语用。 遵守语法,大家可以使用规范的语言,弄清楚语义,彼此就交流了思想。那么还要讨论语用原创 2009-11-23 11:33:00 · 3403 阅读 · 0 评论 -
目前对Learning to Rank 最全面的总结
Learning to Rank for Information Retrieval Tie-Yan Liu Microsoft Research Asia 类似于课件 点击下载 Learning to Rank Hang Li Microsoft Research Asia 和上一个差不多 点击下载 刘铁岩博士,现任微软亚洲研究院研究原创 2009-11-22 14:01:00 · 16713 阅读 · 0 评论 -
对大量转载贴识别算法的研究
要识别论坛中被大量转载的同一篇文章,初看起来不是一个很难的技术问题,只要生成所有文章的信息指纹,再将相同指纹分组就可以了。至于产生信息指纹的方式,最简单的是用MD5或者SHA等单向Hash函数,如果为了减少存储以及提高性能,同时可以容许一定误差,可以再利用BloomFilter。 但是结合实际情况看一下,就能发现产生这种类别文章的指纹不能简单的用MD5产生,因为当一篇文章被大量复制转载原创 2009-11-17 11:34:00 · 1145 阅读 · 0 评论 -
文本挖掘技术在CIC的应用--转载
数据挖掘(Data Mining)已经不是一个新鲜的概念,“尿布和啤酒” 这一经典案例也被很多人津津乐道: 美国一家大型超市利用数据挖掘技术来分析他们的销售纪录,居然发现尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查,找到了产生这个现象的原 因,原来在美国,负责为孩子购买尿布的年轻父亲们,很多时候会顺带着给自己买些啤酒。沃尔马随后采取的措施是,将尿布和啤酒并排放在一起,结果两种产品的原创 2009-11-17 11:24:00 · 1424 阅读 · 0 评论 -
lucene的使用
1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后原创 2009-11-17 21:57:00 · 1297 阅读 · 0 评论 -
搜索引擎技术揭密:中文分词技术
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值 的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、ov原创 2009-11-17 21:21:00 · 1671 阅读 · 0 评论 -
查全率[召回率]与精度[查准率] 之辨析
查全率[召回率]与精度[查准率] 之辨析: 召回率(recall rate)和精度(precision)定义: 从一个大规模数据集合中检索文档的时,可把文档分成四组 -系统检索到的相关文档(A) - 系统检索到的不相关文档(B) - 相关但是系统没有检索到的文档(C) - 不相原创 2009-11-17 21:13:00 · 5258 阅读 · 0 评论 -
情感分析(Sentiment Analysis)的难题--转
我们对在线文本进行文本挖掘的任务之一,就是进 行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好","坏"这些关键字那 么简单,有时候相似度很高的句子,却反映了截然不同的态度,譬如下面这两句话 "这瓶洗发水,适合头发很干的人用" "用了这瓶洗发水,头发变得很干" 两个句子中的主要成分都差不多,"洗发水","头发","很干原创 2009-11-17 11:28:00 · 1771 阅读 · 0 评论 -
自然语言理解
发信人: walt (瓦尔特), 信区: AI 标 题: 自然语言理解 发信站: 国家智能中心曙光站 (Fri Oct 10 14:02:46 1997) 广义的“语言”是任何一种有结构的符号系统。人类的语言、手势、体态, 机 器的指令、命令、程序, 排版时的格式说明, 公路上的交通图标……都属于这种广 义的 “语言”。其中, 最重要的两类语言, 是自然语言和形式语言。 狭义的“语言”原创 2009-11-16 20:08:00 · 2962 阅读 · 2 评论 -
概率、信息和熵
以前写过一篇关于最大熵模型的读书笔记。刚翻陈家鼎和郑忠国两位老师合编的教材《概率与统计》(北大出版社,2007),看到关于信息熵的详细数学表述,不妨转述一下,算是不在场的课堂笔记。 概率与信息 事件A的概率P(A)是A发生可能性的大小的度量。 问题:A的发生带给我们多大的信息呢? 结论 P(A)越大,则A发生带来的信息越少;反之,P(A)越小,则A的发生带来的信息越大。 例子:有人对你原创 2009-11-10 18:54:00 · 4744 阅读 · 1 评论 -
矩阵运算和文本处理中的分类问题
我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。 在自然原创 2009-11-10 13:29:00 · 1614 阅读 · 0 评论 -
数学之美系列 4 -- 怎样度量信息?
数学之美系列 4 -- 怎样度量信息?前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。 一条信息的信转载 2009-10-31 20:48:00 · 731 阅读 · 0 评论 -
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
发表者:吴军,Google 研究员 前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。 自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我转载 2009-10-31 20:32:00 · 1031 阅读 · 0 评论 -
数学之美 系列十三 信息指纹及其应用
数学之美 系列十三 信息指纹及其应用 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。 我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过的网址(URL)。但是在哈希表中以字符串原创 2009-11-05 21:43:00 · 664 阅读 · 0 评论 -
数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型
数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。] 前段时间,Google 中国研究院的刘骏总监谈原创 2009-11-05 22:19:00 · 1088 阅读 · 0 评论 -
数学之美 系列 12 - 余弦定理和新闻的分类
数学之美 系列 12 - 余弦定理和新闻的分类 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办原创 2009-11-05 21:29:00 · 958 阅读 · 0 评论 -
数学之美 系列十五 繁与简 自然语言处理的几位精英
数学之美 系列十五 繁与简 自然语言处理的几位精英 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔·柯林斯 (Michael Collins) 就是这样的人。 柯林斯:追求原创 2009-11-05 22:05:00 · 1066 阅读 · 0 评论 -
潜在语义分析对认知科学的启示
潜在语义分析技术对认知科学以及虚拟现实系统的设计也具有启示: 首先,由于LSA可以用数学方法实现对文本的理解,所以可采用LSA分析人对文本的理解。 认知领域中,文本理解研究的主要目标是发现影响读者由文本材料提取信息和保留信息的能力的诸多因素。通常采用让被试者阅读材料,然后让他们回答问题或写一篇进行总结的方式,测试被试由文本中获取了什么样的信息。对转载 2009-11-03 21:09:00 · 1835 阅读 · 0 评论 -
中文信息处理的主流技术是什么?
中文信息处理的主流技术是什么? 从20世纪50年代初机器翻译课题被提出算起,自然语言处理(NLP)的研发历史至少也有50年了。90年代初,NLP的研究目标开始从小规模受限语言处理走向大规模真实文本处理。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的“第13届国际计算语言学大会”。那些只有几百个词条和数十条语法规则的受限语言分析系统,通常被业内人士戏称为“玩具”,不可能有什转载 2009-10-28 22:14:00 · 2169 阅读 · 0 评论 -
文本分类入门(十一)特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来转载 2009-10-27 21:05:00 · 3417 阅读 · 1 评论 -
文本分类入门(十)特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣转载 2009-10-27 20:54:00 · 3717 阅读 · 0 评论