java:爬虫(2)

package demo;

import java.net.URL;
import java.util.ArrayList;
import java.util.Scanner;


public class Wbe_Crawl {
	public static void main(String[] args) throws Exception {
		System.out.println("input ");
		Scanner input = new Scanner(System.in);
		String str = "http://" + input.nextLine();
		Crawl(str);
	}

	private static void Crawl(String a) {
		ArrayList<String> a1 = new ArrayList<>();// 未爬
		ArrayList<String> a2 = new ArrayList<>();// 已爬

		a1.add(a);

		while (!a1.isEmpty() && a2.size() <=200) {
			String q1 = a1.remove(0);
			if (!a2.contains(q1)) {
				a2.add(q1);
				System.out.println("Crawl :" + q1);
			}
			for (String s : GetURL(q1)) {
				a1.add(s);
			}
		}

	}

	private static ArrayList<String> GetURL(String q1) {
		ArrayList<String> list = new ArrayList<>();
		try {
			URL url = new URL(q1);

			Scanner input = new Scanner(url.openStream());
			int c1 = 0;

			while (input.hasNext()) {

				String line = input.nextLine();

				c1 = line.indexOf("http:", c1);

				while (c1 > 0) {
					int c2 = line.indexOf("\"", c1);

					if (c2 > 0) {

						list.add(line.substring(c1, c2));

						c1 = line.indexOf("http:", c2);

					} else {
						c1 = -1;
					}
				}
			}

		} catch (Exception e) {
			System.out.println("出错了");
		}
		return list;
	}
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值