爬取36氪新闻并解析-优快云博客

本文链接：https://blog.youkuaiyun.com/zpl123456/article/details/37818957

本博客详细介绍了如何使用Java爬虫技术从36氪网站抓取新闻标题、链接及标签信息，并通过解析HTML内容实现自动化获取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

private static void crawl36() {
		try {
			String urls = "http://www.36kr.com/topics/recent?page=1";
			String site = "http://www.36kr.com";
			HttpURLConnection con = getHttpURLConnection(urls);
			con.setRequestProperty(
					"User-Agent",
					"Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25");
			con.setRequestMethod("GET");
			String contentType = con.getContentType();
			if (contentType.indexOf("charset") == -1) {
				contentType = "GBK";
			} else {
				contentType = contentType.substring(
						contentType.indexOf("=") + 1, contentType.length());
			}
			Document document = Jsoup.parse(IOUtils.toString(
					con.getInputStream(), contentType));
			Elements elements = document.select(".infos");
			List<News> listNews = new ArrayList<News>();
			News news = null;
			for (Element element : elements) {
				Element elementUrl = element.select(".title").get(0);
				String url = elementUrl.getElementsByTag("a").attr("href");
				String title = elementUrl.getElementsByTag("a").text();
				String tag = element.select(".node").text();
				news = new News();
				news.setUrl(site + url);
				news.setTitle(title);
				news.setTag(tag);
				listNews.add(news);
			}
			System.out.println("抓取" + listNews.size() + "条");
			for (int i = 0; i < listNews.size(); i++) {
				System.out.print(listNews.get(i));
			}
		} catch (Exception e) {
		}
	}

待续

抓取36氨北极社区内容