Jsoup使用感悟

最新推荐文章于 2025-12-20 10:48:38 发布

原创最新推荐文章于 2025-12-20 10:48:38 发布 · 255 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#概率论

计算机底层专栏收录该内容

2 篇文章

订阅专栏

该博客主要展示了如何使用Jsoup库从指定URL抓取页面内容，并解析HTML以获取页面标题及特定ID元素下的列表信息。通过三种不同的方式提取了列表项的内容，包括直接打印文本、获取自有文本以及分割文本获取关键信息。

在这里插入图片描述
主要是修改main函数里的内容其他部分没做更改

main函数内容更改如下:

public static void main(String[] args) {
	
	
	String url ="http://blog.youkuaiyun.com/zzq900503";
	
	initHttpClient();
	
	String content =crawlPageContent(httpClient,url);
//	System.out.println(content);
	Document doc = Jsoup.parse(content);
	String title = doc.title();
	System.out.println(title);
	
	Element a=doc.getElementById("panel_Profile");
	
	Elements li_content=a.getElementsByTag("li");
 
	//提取方式一:
//	for(Element i:li_content)
//	{
//		String tag=i.tagName();
//		if(tag.equals("li"))
//		{
//			System.out.println(i.text());
//			
//		}
//		
//		
//	}
	
	//提取方式二:
//	for(Element i:li_content)
//	{
//		String tag=i.tagName();
//		if(tag.equals("li"))
//		{
//			String fre_content=	i.ownText();
//		
//		   System.out.println(fre_content);
//		   if(i.children().size()>0&&i.children()!=null)
//		   {
//		   String after_content=i.child(0).text();
//		   System.out.println(after_content);
//		   }
//		}
//		
//		
//	}
	
	
	//提取方式三:
	for(Element i:li_content)
	{
		String tag=i.tagName();
		if(tag.equals("li"))
		{
			String all_content=i.text();
			String all_string=Jsoup.clean(all_content, Whitelist.none());
		String[] all=all_string.split("：");		 
		   if(all.length>0&&all!=null)
		   {
			   String fre_content=all[0].toString();
			   System.out.println(fre_content);
		   String after_content=all[1].toString();
		   System.out.println(after_content);
		   }
		}
		
		
	}
	
	
	
}

在这里插入图片描述