
Information Retrieval
文章平均质量分 81
ustcqi
这个作者很懒,什么都没留下…
展开
-
windows XP下nutch-1.0搜索引擎环境搭建
“开始先吐槽一下,弄了几天,终于在昨天找出错误原因了,写下博文记录之。” 由于工程实践选题是关于搜索引擎的,先用nutch搭建个搜索引擎玩一玩,没想到一玩就是好几天,归正题。 1.下载JDK , Cygwin,tomcat,版本都用最新的肯定没问题。 2.系统环境变量设置。 JAVA_HOME = jdk的安装目录 PATH:设置java虚拟机的编译运行目录,%JAV原创 2012-10-13 10:54:36 · 772 阅读 · 0 评论 -
java-抓取指定URL网页的内容(二)
import java.io.*; import java.net.*; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; import org.apache.commons.httpclient.HttpStatus; import org.ap原创 2012-11-03 21:31:45 · 852 阅读 · 0 评论 -
java-抓取指定URL网页的内容
由于做的工程实践关于爬虫的,本来打算用Python写,但是发现没有Python写爬虫的书籍,但网上有一些博客,文章之类,看着不够系统,完全找不到感觉,索性学java写爬虫吧,毕竟有本书专门讲解的,下面是我照抄书上的源代码,加上部分自己写的代码. import java.io.*; import java.net.*; import org.apache.commons.httpclient原创 2012-11-03 20:54:08 · 4111 阅读 · 0 评论 -
第一个爬虫程序
#-*-coding:utf-8-*- import re import urllib2 import sys urls = [] def downURL(url, filename): print "url : " + url print "filename :" + filename try: fp = urllib2.urlopen(url)原创 2012-10-28 21:31:03 · 659 阅读 · 0 评论