
网络爬虫学习笔记
文章平均质量分 54
acm2014
希望能学到更多的东西!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网络爬虫学习笔记——认识网页源码
网页的展示一般是通过加载网页的源码实现的,网页源码是由具体的元素组成的。以百度网站举例,让我们通过浏览器来打开百度首页,我们看到的网页内容是如下图。 我们可以通过右键来获取查看源码的方法,这样我们就可以看到这页面里面的元素都是什么种类的。 通过源码我们可以发现我们可点击的大部分都是链接地址,如果我们想要的是电影的地址链接,就可以从此源码中获取到了。 但很多原创 2016-11-16 22:54:01 · 765 阅读 · 0 评论 -
网络爬虫学习笔记———网页源码下载之get方法
请求网页的方式主体有两种,一种是get方法,一种是post方法。正如这两个单词明面上的意思,一个是单纯地从网页中获取源码,另一种需要传递正确的参数后才能返回正确的源码。如图所示,我们可以利用F12观察的方法来查看具体是哪种请求。 下面是post方法。 怎样通过程序去模拟这个过程呢,Apache给我们提供了一系列的方法。http://hc.apache.org/网址原创 2016-11-17 22:36:01 · 800 阅读 · 0 评论 -
网络爬虫学习----安装程序
学习在Java环境下的爬虫编程,需要对应的Java环境。主要需要以下软件:1、jdk,Java编译所必需的环境。可以到官网进行下载,目前推荐1.8版本。2、myeclipse。爬虫所用的编程工具,推荐使用2013以上的版本。3、apache-tomcat。作为服务器的架构,可以提供独立的爬虫服务,而且提供了需要用于爬虫解析的库函数,十分方便。4、fiddler。用于观察浏览原创 2016-11-14 22:42:30 · 378 阅读 · 0 评论 -
网络爬虫学习笔记——网络爬虫简介
网络爬虫就是通过计算机程序来模拟人类利用浏览器浏览网页的行为来获取所需的信息的行为。这样可以节省人力和避免信息的遗漏,比较贴近的估计就是在网络上寻找电影资源了。我们都尝试过需要一些老的电影的资源,一般这些资源都相对较少了。我们需要逐个网页的去浏览来获取电影的下载地址,并对地址是否有效进行甄选。网络爬虫就是可以通过程序来实现这个过程,直接把最终的地址返回给用户。 正因为源于模拟浏览器的行为,原创 2016-11-15 21:36:42 · 873 阅读 · 0 评论 -
网络爬虫学习笔记——GET方法下几种常用情况
在网页抓取的过程中,GET方法是最基础的方法,很多网站都是主要由GET方法请求组成的(当然也有很变态的,这种网站的开发人员辛苦了,一般下一个页面访问需要的参数是上个页面中源码的内容)。下面以GET方法简单介绍些常遇到的情况。 1、 参数提交参数提交并不是POST方法的专利,GET方法也可以实现对应的参数传递。这种主要是在请求的地址中进行传值,最常见的传值应该是翻页。如下图中在百度中搜原创 2016-11-20 18:14:06 · 2630 阅读 · 0 评论