
4.自然语言处理/机器学习
Coder李海波
这个作者很懒,什么都没留下…
展开
-
一种语言/编码检测的复合方法
转自:http://blog.i5un.com/item/21翻译自Mozilla的网站。Jacks Weblog-->这篇论文讨论了组合三种不同的检测方法来实现自动字符集检测。A composite approach to language/encoding detection)Shanjian Li (shanjian@netscape.com )Katsuhiko Momoi (mom转载 2007-10-26 14:52:00 · 2276 阅读 · 0 评论 -
朴素贝叶斯用于垃圾页识别
阮一峰的关于贝叶斯的文章,写得比我好,请参考:http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.htmlhttp://www.ruanyifeng.com/blog/2011/08/bay原创 2011-01-19 11:38:00 · 4927 阅读 · 1 评论 -
用Hyperspace Analogue to Language (HAL)进行短文本扩展
HAL是什么我就不解释了,具体可以参考:http://www.zhan5zhan.com/post/6.html1、何谓短文本 论坛、博客、微博、聊天记录、问答,都可以认为是短文本。虽然博客、论坛也有很多长文本,但是是少数。2、短文本难点 1)不规范、口语化。原创 2011-09-14 15:33:04 · 4907 阅读 · 0 评论 -
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式: 召回率(Recall) = 系统检索到的相关文件 /原创 2011-07-06 22:15:30 · 57545 阅读 · 15 评论 -
近期推荐引擎、机器学习、自然语言处理看到的一些资料
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html 探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤http://www.ibm.com/developerworks/cn/web/1103_zhaoct原创 2011-07-01 15:26:00 · 4193 阅读 · 0 评论 -
基于Web开发模式的信息抽取
以上的这些方法,都是从网页中的规律考虑,能解决一部分问题,而问题的根源是Web页面是Web工程师开发出来的,研究他们的Web开发习惯和模式对于信息抽取是最根本的,而本人则做过Web开发,所以总结出来几个对信息抽取有用的几个模式原创 2010-12-27 17:32:00 · 5291 阅读 · 0 评论 -
Google广告分类体系
Google广告的偏好设置,可以设置站点Adsense的出现广告的类别,由此可以看出,Adsense的分类体系如下:1、类别:1578,不算多,也不算少。2、级别:一级大概是26类,一般行业下是3-4级,只有地理位置达到6-7级。3、详细程度:一般只是到《休闲游戏》,《丰田》,《相机》等比较粗略的大类上,但是具体内容、型号等在每个类别上都有体现的,比如”卡罗拉”,“1.8GL-i“ 属于 丰田,在丰田的类别上需要维护系列名、车型、特点等信息。对于广告应用来说,这个分类体系足够了,有志于广告分类于数据挖掘的同原创 2010-12-14 10:13:00 · 21588 阅读 · 0 评论 -
结构风险最小和VC维理论的解释
基于libsvm的中文分类原型,虽然做了原型,但是概念还不是很清晰。“支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上”结构化风险结构化风险 = 经验风险 + 置信风险经验风险 = 分类器在给定样本上的误差置信风险 = 分类器在未知文本上分类的结果的误差置信风险因素:样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小;分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。提高样本数量,降低VC维,降低置信风险。以前机器学习的目标是降低经验风险,要降低原创 2010-09-16 15:26:00 · 15209 阅读 · 5 评论 -
网页文本的排重算法介绍
转自http://hi.baidu.com/dobit/blog/item/87ef4eed8701c92d62d09f2b.html1.信息指纹算法判断重复网页的思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。判断内容复制的方法中最关键的两点:1、计算信息指纹(Fingerprint)的算法;2、判断信息指纹的相似程度的参数。信息指纹就是提取网页正文信息的特征,通常是一组词或者原创 2010-09-15 16:59:00 · 4938 阅读 · 0 评论 -
基于kNN的文本分类原理以及实现
前两天写了 基于libsvm中文文本分类 ,只是做到了会用的,SVM的理论性太强了,理解起来还是很费劲的。不过SVM的应用很广泛,除了文本分类,比如人脸识别,手写识别,甚至验证码识别都可以搞定。 kNN(k最邻近)算法相对而言,就简单得多了。1,kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选原创 2010-08-30 18:24:00 · 10946 阅读 · 3 评论 -
基于libsvm的中文文本分类原型
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。SVM理论的学习,请参考jasper的博原创 2010-08-27 16:33:00 · 26348 阅读 · 14 评论 -
VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法](介绍)
VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法]http://www.vipcn.com/chengxukaifa/qitayuyan/212673.html这篇论文很好,对于如何确定正文区域,排除广告具有很好的指导作用。但是,对于如何合并、如何查找正文区域,还要另外思考。同时,是否有必要处理css和style,对于效率有什么影响,也要考虑。其实,对此我有一些经验,但是出于保密,无法提供。原创 2010-06-10 17:46:00 · 2119 阅读 · 3 评论 -
中文分词的一些研究记录
这两天想了解一下中文分词的一些技术,因此就研究了一把,也就是了解了一些皮毛,记录下来,首先申明我是外行,请勿用专业标准来要去我。 中文分词,主要是三个流派,一是词典派,一是统计派,一是规则派。比如“我爱北京天安门”,词典派就是去查词典,词典中中有“我”,“爱”,“北京”和“天安门”,就分出来了,简单吧。词典派的算法一般是最大匹配算法,比如“北京华烟云”,正向最大匹配就是“北京 华...原创 2019-11-12 11:36:51 · 7426 阅读 · 5 评论 -
CRF++中文分词使用指南
1 下载和安装CRF的概念,请google,我就不浪费资源啦。官方地址如下:http://crfpp.sourceforge.net/我用的是Ubutnu,所以,下载的是源码:http://sourceforge.net/projects/crfpp/files/ 下载CRF++-0.54.tar.gz没有gcc/g++/make请安装% ./configure % make% sudo make install2 测试和体验在源码包中有example,可以执行./exec.sh体验一下原创 2010-07-27 18:26:00 · 27074 阅读 · 10 评论