爬虫的一些知识点
目录
6.1. 网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。 5
7.1. 2.基于HttpURLConnection类编写爬虫:java se的net包的核心类,主要用于http的相关操作。简单 7
7.2. 3.基于apache的HttpClient包编写爬虫:由net包拓展而来,专为java网络通信编程而服务。常用 7
7.3. 5.基于Selenium或者是WebDriver之类的有头(有界面)浏览器。。适合于复杂界面 8
(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚
爬虫目的::为了获取数据,就是通过url接口 web gui接口来获取数据
操作web自动化(自动化注册,批量注册机,发帖机,点赞器)
自动化测试
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。
(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的