
网络爬虫
冰峰zoubf
热爱生活,向往未来
展开
-
网络蜘蛛的安全隐患及预防方法
网络爬虫概述 网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。 随着网络的迅速发展,万维网成为大转载 2016-03-03 21:34:44 · 954 阅读 · 0 评论 -
Beautiful Soup 4.2.0 文档
参考文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这篇文档介绍了BeautifulSoup4中所转载 2016-03-26 20:54:49 · 118 阅读 · 0 评论 -
Selenium 实现爬虫
1下载selenium-server-standalone-2.41.0.jarchromedriver_win32.zip IEDriverServer_x64_2.42.0.zip 2设置环境1)解压chromedriver_win32.zip,把chromedriver.exe拷贝至C:/ selenium/chrome/2)解压IEDriver转载 2016-03-26 10:20:54 · 5681 阅读 · 0 评论 -
爬虫(Spider),反爬虫(Anti-Spider)
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔...Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。这个站点的运维小黎发现某个时间段请求量陡增,分析日志发现都是 IP(1.1.1.1)这个用户,并且转载 2016-03-24 22:33:41 · 3122 阅读 · 0 评论 -
如何给网站加入优雅的实时反爬虫策略
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点:能被google、百度等正规搜索引擎爬虫抓取,不限流量和并发数;阻止山寨爬虫的抓取;反爬虫策略应该是实时检测的,而不是通过一段时间后的访问统计分转载 2016-03-24 22:28:17 · 5566 阅读 · 0 评论 -
XPath 教程
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。在学习之前应该具备的知识:在您继续学习之前,应该对下面的知识有基本的了解:·转载 2016-03-24 10:22:15 · 3624 阅读 · 0 评论 -
html解析器JsoupXpath介绍
JsoupXpath (https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath解析器,故开发了JsoupXpat转载 2016-03-24 10:19:45 · 1550 阅读 · 0 评论 -
JAVA 正则表达式 (超详细)
在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包。 可粗略估计一下,除了偶尔用Linux的外,其他Linu x用户都会遇到正则表达式。正则表达式是个极端强大工具,而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里,正则表达式几乎没有什么限制,可肯定的是,它应用非常之广泛。转载 2016-03-21 21:34:12 · 1188 阅读 · 0 评论 -
Java+MySQL实现网络爬虫程序
网络爬虫,也叫网络蜘蛛,有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网,以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目,其中比较有名的是Heritrix和Apache Nutch。 有时需要在网上搜集信息,如果需要搜集的是获取方法单一而人工搜集费时费力的信息,比如统计一个网站每个月发了多少篇文章、用了哪些标签,为自然语言处转载 2016-03-20 22:24:55 · 1816 阅读 · 1 评论 -
PhantomJS快速入门教程
Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVGPhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JS转载 2016-03-20 22:03:25 · 897 阅读 · 0 评论 -
运用 jsoup 对 HTML 文档进行解析和操作
使用 jsoup 对 HTML 文档进行解析和操作(比HTMLParser好)jsoup 简介Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和?扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用转载 2016-03-20 10:43:05 · 488 阅读 · 0 评论 -
jsoup 和nekohtml,htmlparser解析html
仅以此文章表达介绍下将html解析成纯文本的多种方式 1.jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。 可参考:http://www.iteye.com/topic/1010581 Java代码 public void parse(String urlStr) { // 返回结果初始化。转载 2016-03-20 10:40:49 · 1291 阅读 · 0 评论 -
HtmlParser基础教程
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.htmlAPI:http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。2、使转载 2016-03-20 10:16:06 · 92 阅读 · 0 评论 -
HttpClient使用详解
Http协议的重要性相信不用我多说了,HttpClient相比传统JDK自带的URLConnection,增加了易用性和灵活性(具体区别,日后我们再讨论),它不仅是客户端发送Http请求变得容易,而且也方便了开发人员测试接口(基于Http协议的),即提高了开发的效率,也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容,掌握HttpClient后,相信对于Http协议的了解会转载 2016-03-20 10:15:04 · 373 阅读 · 0 评论 -
常见的反爬虫和应对方法
0x01 常见的反爬虫 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式。前两种比较容易遇到,大多转载 2016-03-04 22:46:51 · 7848 阅读 · 0 评论 -
网页爬虫及其用到的算法和数据结构
网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互 联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索 引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即 时,因此其性能的优劣直接影响着搜索引擎的效果。 网络爬虫程序的优劣,很大程度上反映了一个搜索引擎的好差。不信,你可以随便拿一个网站去查询转载 2016-03-04 22:30:47 · 6889 阅读 · 1 评论 -
83款 网络爬虫开源软件
1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 NutchNutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目转载 2016-03-03 21:50:15 · 2013 阅读 · 0 评论 -
Selenium WebDriver + Python 环境
1. 下载必要工具及安装包1.1.【Python开发环境】下载并安装Python 2.7.x版本(当前支持2.x版本,不要下载最新的3.X的版本因为python3并非完全兼容python2)下载地址:https://www.python.org/downloads/ 1.2.【python 的安装包管理工具】Pippip 是python 软件包的安装和管理工具,有了转载 2016-03-26 22:17:50 · 846 阅读 · 0 评论