
Java 爬虫
azhegps
技术源于不断滴追求!
展开
-
网络爬虫入门
1.爬虫的定义 爬虫是一种抓取网页信息的工具 2.爬虫的三大基本功能: 1.http请求:用于根据url获取网页源码 2.网页解析 : 对获取到的网页源码进行解析,提取出符合需要的url链接和网页内容 3.持久化:对提取到的网页内容进行存储(数据库,文件,建立索引等) 3.爬虫的分类及其工作流程 1.单机爬虫 ...转载 2016-11-21 16:38:20 · 312 阅读 · 0 评论 -
关于使用Java实现的简单网络爬虫Demo
我们随便复制一条URL到浏览器中打开。看看效果。比如我们用这条http://i1.sinaimg.cn/dy/deco/2013/0316/arr.png 好的。没有任何问题。图片都出来了。说明我们抓取的这个URL是有效的 至此我们的一个简单的Demo就展示完成了转载 2016-12-22 15:22:08 · 808 阅读 · 0 评论 -
半自动化之单机爬虫
这篇博文将介绍一下我的这个单机爬虫作品,主要是给大家一个思路,如何做出一个比较有趣的单机爬虫,当然这个作品肯定会有很多改进的地方,欢迎大家提出建议一起改进 爬虫简介: 在部门做爬虫需求的时候,每次来一个需求就需要写一个爬虫程序然后打包部署到服务器,制定脚本定时运行,所以有了这个爬虫,目的是为了尽可能简化现有的流程,之前从网页源码获取,到网页解析,到持久化都需要重新在程序里面重新写转载 2017-01-03 20:50:52 · 1272 阅读 · 0 评论 -
分布式爬虫
这个分布式爬虫是以前自己和同学一起合作的,后来在这个基础上改进了一些特性,同样的只是提供一个大概的思路,欢迎大家提出建议 功能简介: 这个爬虫是一个可拓展的分布式爬虫,采用主从的通信模式,在主机端维护url队列,当从机与主机打招呼后,主机会分发url给从机,从机得到url后进行解析,再返回解析结果给主机持久化,然后主机再分配一个url给从机循环该过程,整个过程就是这样。转载 2017-01-03 20:52:33 · 1237 阅读 · 0 评论