
Crawler
pangPython
任何事做上10年以上总会有起色
展开
-
浅谈把玩爬虫的乐趣
很久之前听说过“爬虫”这个概念就感觉很神秘,印象只是停留在“百度的爬虫每时每刻都在爬取互联网的页面,保存在自己的服务器上,以供加快搜索”。自己也曾想过写爬虫,编程功底不够,对互联网更甚网络不甚了解,感觉无从下手。直到前不久,一直在开源中国上看有什么可以立即运行的比较好玩的项目。看到了WebController这个基于java的爬虫。抱着试一试的心态,clone下来,eclipse中运行一下,效果可以原创 2016-11-28 20:51:17 · 876 阅读 · 0 评论 -
基于WebCollector的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片
基于WebController的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片代码: https://code.youkuaiyun.com/u012995856/javacrawler/tree/master效果: 1.使用WebController抓取糗百的url QiuShiBaiKe.javapackage com.huijiasoft.pangPython.crawl原创 2016-12-02 15:16:09 · 1053 阅读 · 0 评论 -
基于WebCollector的java爬虫(一)爬取滨州学院官网新闻
代码地址: https://code.youkuaiyun.com/u012995856/javacrawler/tree/master 效果: 新闻: pdf: 这里还没有做处理分页。 使用WebController爬虫框架,iText7输出PDF 其实爬虫没什么神秘的,只是要自己分析网页,写正则表达式匹配url.然后让其他大牛写好的爬虫按照你的规则去分析抓取网页页面. 1.选取自己要原创 2016-11-18 20:45:28 · 1945 阅读 · 1 评论 -
JSP、Servlet实战:团队开发新闻系统(七)腾讯新闻爬虫
JSP、Servlet实战:团队开发新闻系统(七)腾讯新闻爬虫思路:使用WebCollector爬虫框架,由入口URL开始爬取,爬取到符合正则表达式的URL就开始分析页面,提取出其中的新闻标题,摘要,内容,作者等信息,封装成News,使用NewsDao写入数据库。代码地址:https://git.oschina.net/pangPython/ShiXunTencentTechNewsCrawler.原创 2017-01-12 09:34:35 · 1609 阅读 · 0 评论