Java:用HtmlParser抓取新浪博客文章内容

本文介绍了一个使用纯Java编写的HTML解析库htmlparser,并通过实例展示了如何从新浪博客中抓取指定文章的内容。作者强调文化的多样性和包容性,同时表达了个人的观点和支持的足球队伍。

htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件. 下载地址为:    http://htmlparser.sourceforge.net

 

新浪博客文章html页面:

 

 

 // 新浪博客韩寒的一篇文章内容部分的tag, 文章地址:http://blog.sina.com.cn/s/blog_4701280b0100jbqq.html 

			<div class="articalContent" id="sina_keyword_ad_area2"><p STYLE="TexT-inDenT: 2em">
谢谢我的对手,你们让我学到很多,让我知道长路漫漫。关于类似的一切,我的看法从未改变。两年前我就已经说过一遍,雷同观点如今不想再多说了,说来说去都是一样,说多了就累了,在累之前我认输,否则就灰心了。你们胜利了,请随意。如果你是我的读者,我希望你们不要以任何名义去驱逐任何一种文化,更不要想教训和消灭它的受众群体,无论是文化还是政治都不能排他,也不能代替别人做出选择,哪怕它很傻,哪怕它不合你的口味,只要它不反人类。我曾经无意识的带领你们去往各个博客铲除异己,如今我欣喜的看到我们共同的进步,四年前的我一定带不走今天的你。热血一定要洒在它该洒的地方,否则它就叫鸡血。在此我也正式向现代诗歌以及现代诗人道歉,三年前我的观点是错的,对你们造成的伤害带来的误会,我很愧疚,碍于面子,一直没说,希望你们的原谅与理解。愿文化之间,年代之间,国家之间都能消除成见,为了……你知道的。</P>
<p STYLE="TexT-inDenT: 2em">我看好阿根廷。</P></div>
		

 

 观察html文档可知, 只要抽取出名为div 且属性class为articlecontent的tag(标签)就可以找到文章正文. 下面看代码:

  public static String getContent(String urlString)
    throws Exception
  {
    URL url = new URL(urlString);

    URLConnection conn = url.openConnection();
    conn.setDoInput(true);
    conn.setDoOutput(true);
    conn.setRequestProperty("User-Agent", 
      "Mozilla/4.0 (compatible; MSIE 7.0;)");
    conn
      .setRequestProperty(
      "Accept", 
      "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/msword, application/vnd.ms-excel, application/vnd.ms-powerpoint, */*");

    BufferedReader reader = new BufferedReader(
      new InputStreamReader(conn.getInputStream(), "utf-8"));
    String line = "";
    StringBuilder sb = new StringBuilder();
    while ((line = reader.readLine()) != null) {
      sb.append(line + "\r\n");
    }

    return sb.toString();
  }

   private String processText(String content)
  {
    content = content.trim().replaceAll("&nbsp;", " ");

    return content;
  }

   public String getSinaArticleContent(String url)
    throws Exception
  {
    String content = getContent(url);

    StringBuilder sb = new StringBuilder();

    Parser parser = Parser.createParser(content, "utf-8");
    AndFilter filter = new AndFilter(new TagNameFilter("div"), 
      new HasAttributeFilter("class", "articalContent"));

    Node node = null;
    NodeList nodeList = parser.extractAllNodesThatMatch(filter);
    for (int i = 0; i < nodeList.size(); ++i) {
      node = nodeList.elementAt(i);
      sb.append(node.toPlainTextString());
    }

    return processText(sb.toString());
  }

  public static void main(String[] args)
    throws Exception
  {
    ParserTester pt = new ParserTester();

    System.out.println(pt.getSinaArticleContent("http://blog.sina.com.cn/s/blog_4701280b0100jbqq.html"));
  }

 

效果:



 

【事件触发一致性】研究多智能体网络如何通过分布式事件驱动控制实现有限时间内的共识(Matlab代码实现)内容概要:本文围绕多智能体网络中的事件触发一致性问题,研究如何通过分布式事件驱动控制实现有限时间内的共识,并提供了相应的Matlab代码实现方案。文中探讨了事件触发机制在降低通信负担、提升系统效率方面的优势,重点分析了多智能体系统在有限时间收敛的一致性控制策略,涉及系统模型构建、触发条件设计、稳定性与收敛性分析等核心技术环节。此外,文档还展示了该技术在航空航天、电力系统、机器人协同、无人机编队等多个前沿领域的潜在应用,体现了其跨学科的研究价值和工程实用性。; 适合人群:具备一定控制理论基础和Matlab编程能力的研究生、科研人员及从事自动化、智能系统、多智能体协同控制等相关领域的工程技术人员。; 使用场景及目标:①用于理解和实现多智能体系统在有限时间内达成一致的分布式控制方法;②为事件触发控制、分布式优化、协同控制等课题提供算法设计与仿真验证的技术参考;③支撑科研项目开发、学术论文复现及工程原型系统搭建; 阅读建议:建议结合文中提供的Matlab代码进行实践操作,重点关注事件触发条件的设计逻辑与系统收敛性证明之间的关系,同时可延伸至其他应用场景进行二次开发与性能优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值