
网络爬虫
文章平均质量分 65
爱分享的淘金达人
http://www.jhzjz.cn/
展开
-
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路。2016/12/2本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容原创 2016-12-15 17:52:23 · 476 阅读 · 1 评论 -
基于WebMagic写的一个csdn博客小爬虫
最近有点无聊,想研究一下爬虫,说到爬虫,很多人第一时间想到的是Python。但是这次我选择了室友@antgan推荐的Java爬虫框架WebMagic。该框架容易上手,可定制可扩展,非常适合想用java做爬虫的小伙伴们。先看一下官方教程,里面写得很详细,也有不少参考案例。暂时还想不到有什么数据值得爬取,先拿csdn博客来练练手。 小爬虫能抓取指定用户的所有文章的关键信息,包括文章id,标原创 2017-02-28 15:00:56 · 803 阅读 · 1 评论 -
Java爬虫框架WebMagic的使用总结
最近,项目做一个公司新闻网站,分为PC&移动端(h5),数据来源是从HSZX与huanqiu2个网站爬取,主要使用Java编写的WebMagic作为爬虫框架,数据分为批量抓取、增量抓取,批量抓当前所有历史数据,增量需要每10分钟定时抓取一次,由于从2个网站抓取,并且频道很多,数据量大,更新频繁;开发过程中遇到很多的坑,今天腾出时间,感觉有必要做以总结。工具说明: 1原创 2017-02-27 15:19:42 · 20506 阅读 · 7 评论 -
windows下安装AnyProxy抓取移动App Http请求
AnyProxy是阿里巴巴基于 Node.js 开发的一款开源代理服务器。做为中间代理服务器,它可以收集所有经过它的http请求流量(包括https明文内容);它提供了友好的web界面,便于直观的查看经过它的http请求;同时它支持二次开发,可以用javascript控制整个代理的全部流程,便于前端调试和收集http请求页面内容。它可以用于移动app和移动web页面调试、 抓取。 一、实验原创 2017-11-24 17:27:45 · 1336 阅读 · 1 评论