
网络爬虫技术
deng214
这个作者很懒,什么都没留下…
展开
-
Java爬虫入门简介(一) —— HttpClient请求
数据是科研活动重要的基础。本系列博客将讲述如何使用Java工具获取网络的数据。首先,我们讲述一下爬虫的基本原理。爬虫的基本原理很简单,就是利用程序访问互联网,然后将数据保存到本地中。我们都知道,互联网提供的服务大多数是以网站的形式提供的。我们需要的数据一般都是从网站中获取的,如电商网站商品信息、商品的评论、微博的信息等。爬虫和我们手动将看到的数据复制粘贴下来是类似的,只是获取大量的数据靠人工显然不...转载 2018-05-22 09:16:45 · 632 阅读 · 0 评论 -
Java爬虫入门简介(二) —— HttpClient详细使用方法
在上篇博客里面,我们讲述了如何使用HttpClient请求一个简单的网页。但是,在实际中,有很多网页的请求需要附带许多参数设置。主要包括请求的Header设置以及路径参数。在HttpClient 4.3及以上的版本中,这个过程主要包含如下步骤:使用List<NameValuePair>添加路径参数(请求参数)使用URI对请求路径及其参数进行设置使用List<Header>设...转载 2018-05-22 09:19:47 · 607 阅读 · 0 评论 -
Java爬虫入门简介(三) —— Jsoup解析HTML页面
上一篇博客我们已经介绍了如何使用HttpClient模拟客户端请求页面了。这一篇博客我们将描述如何解析获取到的页面内容。上一节我们获取了 http://www.datalearner.com/blog_list 页面的HTML源码,但是这些源码是提供给浏览器解析用的,我们需要的数据其实是页面上博客的标题、作者、简介、发布日期等。我们需要通过一种方式来从HTML源码中解析出这类信息并提取,然后存到文...转载 2018-05-22 09:20:58 · 20433 阅读 · 1 评论 -
Java爬虫入门简介(四)——HttpClient保存使用Cookie登录
Cookie是浏览器存储存储用户信息的一小段文本,它保存了用户的ID等信息,这些信息可以被服务器端识别,并作为标识用户的手段,以此来判定用户是不是第一次访问。网络上有这样一段解释,很清楚。浏览器与WEB服务器之间是使用HTTP协议进行通信的;而HTTP协议是无状态协议。也就是说,当某个用户发出页面请求时,WEB服务器只是简单的进行响应,然后就关闭与该用户的连接。因此当一个请求发送到WEB服务器时,...转载 2018-05-22 09:21:55 · 4227 阅读 · 3 评论 -
Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问
网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录。我们会以优快云的用户登录为例,讲述如何使用抓包工具获取登录方式并使用HttpClient工具模拟登陆访问。在之前的博客中我们已经讲述了如下内容:抓包工具抓包工具是指那些可以捕获网络传送的数据包的工具。网站的登录是...转载 2018-05-23 08:23:40 · 886 阅读 · 1 评论 -
网络爬虫URLConnection的使用
目录爬取内容分析URLConnection的使用运行结果展示爬取内容分析本文以科学网为例讲解URLConnection的使用。如下图所示,为我们要爬取的第一个页面。即第一层。 下图为我们要爬取的第二个页面,也是我们真正想要爬取的页面。即用户id及用户名。即第二层。 在爬取第二层的入口地址时,我们发现第一层获取的url中含有中文字符,所以要对其进行转码,获取可供请求的url。 下面提供本人自己写了一...转载 2018-05-23 08:30:30 · 353 阅读 · 0 评论