
信息检索
文章平均质量分 71
花间词
这个作者很懒,什么都没留下…
展开
-
链接分析之随机游走模型和子集传播模型
两个web页面to原创 2014-05-18 22:08:33 · 2342 阅读 · 0 评论 -
中文分词软件SCWS
windows下安装SCWS的中文扩展: 去官网下载php_scws.dll(PHP-5.2.x根据php版本选择) 、XDB 词典文件(简体中文(UTF-8)可选gbk,也可以把两个词典文件都下载)、规则集文件(rules.tgz) 创建c:\Program Files\scws(建议)目录,吧XDB、和规则文件解压后的文件都拷贝到该目录中 把php_scw原创 2014-06-20 14:47:37 · 872 阅读 · 0 评论 -
使用tf*idf实现对文档集合的检索
步骤: 读取三篇文档1.txt,2.txt,3.txt,里边的内容分别为“this is php”,“this is html html”,“this is java” 分词,并统计词频tf 计算文档频率df 计算每篇文档的特征向量 计算搜索词与文档的夹角余弦值原创 2014-06-20 14:53:20 · 845 阅读 · 0 评论 -
使用CURL构建爬虫,抓取百度百科内容
实现这个功能的步骤: 首先打开百度百科,在搜索框输入“php”关键词,得到搜索列表,一般都是10条; 然后使用火狐的Firebug分析百度列表的内容组成,主要是html标签,发现去向百科内容的连接的格式都是http://baike.baidu.com/view/5721060.htm,于是使用正则匹配链接,得到10条链接; 之后把链接交由curl()批处理函数(自定义)处理,得到原创 2014-06-20 14:57:32 · 1548 阅读 · 0 评论 -
盲反馈检索系统实验记录一
之前我在旧博客写的,文章原创 2014-06-20 15:20:59 · 584 阅读 · 0 评论