java爬虫——jsoup
一:所需知识
1.io操作
2.简单学习框架jsoup
3.多线程
二:java文件介绍
1.Main.java --------------------程序入口
2.JsoupDemo.java-------------------爬虫的逻辑部分
3.Movies.java--------------------javaBean类
4.MoviesDao.java----------------有关数据库的操作
5.Bt_picture.java------------------电影图片下载到本机
三:程序流程
1.通过链接分析,发现http://www.bttiantangs.com/list/dianying/index_2.html中的2代表页码,该首页一共有500页
2.每当爬取一页时,从电影标题中获取下一页的链接
3.解析电影详情页中你所需要的信息。
四:程序代码
Main.java:
import java.util.List;
public class Main {
public static void main(String [] args) throws Exception{
int k=0; //用来计数
MoviesDao md=new MoviesDao();//用来对获取到的数据插入数据库
Bt_picture p=new Bt_picture();//用来下载图片
for(int i=2;i<50;i++){ //爬取地址的总数
String url="http://www.bttiantangs.com/list/dianying/index_"+i+".html";//爬取的地址
JsoupDemo jsoup=new JsoupDemo();
//获取某一页的所有电影详情页下的连接
List<String> href=jsoup.link(url);
List <Movies> m=jsoup.get(href);
for(Movies e:m){
k++;
//插入数据库
p.download(e);
md.insert(e.getTitle(), e.getYear(), e.getContry(), e.getLan(), e.getDouban_link(), e.getIntroduce(), e.getMain_actor(), e.getDownload_url(), e