
主要是修改main函数里的内容 其他部分没做更改
main函数内容更改如下:
public static void main(String[] args) {
String url ="http://blog.youkuaiyun.com/zzq900503";
initHttpClient();
String content =crawlPageContent(httpClient,url);
// System.out.println(content);
Document doc = Jsoup.parse(content);
String title = doc.title();
System.out.println(title);
Element a=doc.getElementById("panel_Profile");
Elements li_content=a.getElementsByTag("li");
//提取方式一:
// for(Element i:li_content)
// {
// String tag=i.tagName();
// if(tag.equals("li"))
// {
// System.out.println(i.text());
//
// }
//
//
// }
//提取方式二:
// for(Element i:li_content)
// {
// String tag=i.tagName();
// if(tag.equals("li"))
// {
// String fre_content= i.ownText();
//
// System.out.println(fre_content);
// if(i.children().size()>0&&i.children()!=null)
// {
// String after_content=i.child(0).text();
// System.out.println(after_content);
// }
// }
//
//
// }
//提取方式三:
for(Element i:li_content)
{
String tag=i.tagName();
if(tag.equals("li"))
{
String all_content=i.text();
String all_string=Jsoup.clean(all_content, Whitelist.none());
String[] all=all_string.split(":");
if(all.length>0&&all!=null)
{
String fre_content=all[0].toString();
System.out.println(fre_content);
String after_content=all[1].toString();
System.out.println(after_content);
}
}
}
}


该博客主要展示了如何使用Jsoup库从指定URL抓取页面内容,并解析HTML以获取页面标题及特定ID元素下的列表信息。通过三种不同的方式提取了列表项的内容,包括直接打印文本、获取自有文本以及分割文本获取关键信息。
241

被折叠的 条评论
为什么被折叠?



