web crawler
文章平均质量分 61
danielwlh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫相关 ---- 正则表达式过滤掉html里面的部分代码(注释)
在网上看到一个大神的代码,得到html代码以后如何过滤掉注释代码。网上有人推荐使用JSOUP的cleaner,有人推荐正则。 这个方法特别简单易懂。保存下来方便学习参考。 Pattern p=Pattern.compile("\\"); String html=".....";//jsoup得到的html代码 Matcher m=p.matc原创 2014-03-02 22:35:10 · 1890 阅读 · 0 评论 -
JAVA去掉字符串里的html标签。
http://blog.163.com/anyaxiao100@126/blog/static/24086670200910243227833/ 大牛的转载 2014-04-14 12:33:52 · 2856 阅读 · 1 评论 -
爬虫相关(1)--- 如何使用java来获取HTML源码
不需要添加任何jar文件就可以通过网站连接来得到网站的html源代码 URL url = new URL("http://www.baidu.com/"); HttpURLConnection conn = (HttpURLConnection) url.openConnection(); InputStream inputStream = conn.getInputSt原创 2014-02-28 14:22:45 · 1203 阅读 · 0 评论 -
爬虫相关(2)---- 解析HTML源码
参考连接:http://m.oschina.net/blog/126725 上一章介绍了如何使用java本地类库获取http资源。下一步就要考虑如何将源码中的有效信息提取出来。有很多相关的类库可以使用,htmlparser,jsoup,heritrix等等。 但是从我自己的经验,还是比较倾向于使用jsoup。 这里先介绍如何使用jsoup完成http connecti原创 2014-02-28 16:18:21 · 1126 阅读 · 0 评论 -
爬虫相关(3)----- 深度剖析Jsoup抓取数据
想要通过Jsoup来获取信息可以通过document或者elements的getElementsBy****这类方法。也可以通过选择器selector。 这两种方法功能类似,但是selector由于功能强大,可以适应更加复杂的选择条件。需要判断什么时候使用什么方法还需要自己下面多多测试和总结。 首先说一下Document & Elements & Element & NodeL原创 2014-03-03 16:29:39 · 2235 阅读 · 1 评论 -
HtmlUnit 使用记录 ---- 无顺序记录
最近需要解析javascript动态生成的内容,Jsoup不能够完成这个功能,就使用HtmlUnit,可以说到目前为止HtmlUnit原创 2014-04-10 15:13:52 · 1772 阅读 · 0 评论
分享