根据看了一些java爬虫的书籍做了一个简单的java爬虫的应用小程序,以下就是教程:
压缩包下载链接请点击:源代码
一、解析Html网页
首先要做一个查成语的应用,我们要选取一个查成语的网站
我选取的是 乐乐课堂查成语这个网站 (乐乐课堂)http://www.leleketang.com/chengyu
每一网站都不一样的,因为每一个网站所使用的class,id 都是不一样的,可以说就是根据class 和id等这些来判断词语所在的位置。
点开乐乐课堂这个网站
输入天点击查询
http://www.leleketang.com/chengyu/results.php?k=天
可以发现它是一个get请求,点击下一页
http://www.leleketang.com/chengyu/results.php?k=天&p=2
可以知道查询条件就是k值、页数为p
然后按F12进入网页源代码查看
找到所查的成语的那一部分代码
二、新建工程项目
新建一个工程,可以新建动态web,maven ,java工程等,
导入包,要导入的包
三、新建model对象
我们看了那个网站的结构后,我就选取了三个字段,成语,成语拼音,成语解释,如果想把其他的标签呀之类的选取好都可以
新建一个Model对象、代码如下
package chengyu;
public class CyModel {
private String cyName;
private String cyPinYin;
private String cyDetal;
public String getCyName() {
return cyName;
}
public void setCyName(String cyName) {
this.cyName = cyName;
}
public String getCyPinYin() {
return cyPinYin;
}
public void setCyPinYin(String cyPinYin) {
this.cyPinYin = cyPinYin;
}
public String getCyDetal() {
return cyDetal;
}
public void setCyDetal(String cyDetal) {
this.cyDetal = cyDetal;
}
public CyModel(){
}
public CyModel(String cyName, String cyPinYin, String cyDetal) {
super();
this.cyName = cyName;
this.cyPinYin = cyPinYin;
thi