抓取36氨北极社区内容

本博客详细介绍了如何使用Java爬虫技术从36氪网站抓取新闻标题、链接及标签信息,并通过解析HTML内容实现自动化获取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

	
private static void crawl36() {
		try {
			String urls = "http://www.36kr.com/topics/recent?page=1";
			String site = "http://www.36kr.com";
			HttpURLConnection con = getHttpURLConnection(urls);
			con.setRequestProperty(
					"User-Agent",
					"Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25");
			con.setRequestMethod("GET");
			String contentType = con.getContentType();
			if (contentType.indexOf("charset") == -1) {
				contentType = "GBK";
			} else {
				contentType = contentType.substring(
						contentType.indexOf("=") + 1, contentType.length());
			}
			Document document = Jsoup.parse(IOUtils.toString(
					con.getInputStream(), contentType));
			Elements elements = document.select(".infos");
			List<News> listNews = new ArrayList<News>();
			News news = null;
			for (Element element : elements) {
				Element elementUrl = element.select(".title").get(0);
				String url = elementUrl.getElementsByTag("a").attr("href");
				String title = elementUrl.getElementsByTag("a").text();
				String tag = element.select(".node").text();
				news = new News();
				news.setUrl(site + url);
				news.setTitle(title);
				news.setTag(tag);
				listNews.add(news);
			}
			System.out.println("抓取" + listNews.size() + "条");
			for (int i = 0; i < listNews.size(); i++) {
				System.out.print(listNews.get(i));
			}
		} catch (Exception e) {
		}
	}

待续






                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值