
从零开始学爬虫
Philip.Lau
我立志成为下一个绝影Hamber
展开
-
从零开始学爬虫(12)——requests模块使用代理
一、代理Nginx:Nginx 是一款轻量级的web服务器/反向代理服务器,特点是占有内存少,并发能力强,Nginx 使用基于时间驱动架构,使得其可以支持数百万的TCP 连接。Nginx 是跨平台的。反向代理:用户不知情。以代理服务器来接受Internet 上的连接请求,将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给客户端。如果有攻击来,也只是攻击反向代理的服务器,这样...原创 2019-12-15 20:15:09 · 224 阅读 · 0 评论 -
从零开始学爬虫(10)——贴吧爬虫
脚本任务描述爬取任意一个贴吧的前1000页内容,并将内容保存在本地实现思路1、构造一个URL列表2、对这个URL列表进行遍历,向服务器发送请求,获取返回数据3、保存内容到本地分部实现构造URL列表构造URL列表的时候,我们需要知道贴吧的URL构造方式,并且知道第一页和第二页的区别在哪里。于是,我们可以这样来构造URL: def get_url_list(self): # ...原创 2019-12-08 21:44:31 · 331 阅读 · 0 评论 -
如何查看一个网页的请求头header信息
如何查看一个网页的请求头header信息首先使用浏览器打开一个网页,然后按F12,例如:然后点击右边的Network,并按下Ctrl + R,如下图所示:在下面的文件栏里面找到以.cn/.com类型结尾的文件,点击,右边就会出现相应的内容,如下图所示:这个时候就能在右边找到header等信息了。...原创 2019-11-22 00:39:44 · 50683 阅读 · 2 评论 -
从零开始学爬虫(9)——requests模块发送带headers的请求和带参数的请求
一、发送简单的请求Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库。具体可以参考这篇文章:《Python爬虫之requests库》下面来完成一个小需求:通过requests向百度首页发送请求,获取百度首页的数据常用的方法...原创 2019-11-20 23:45:07 · 791 阅读 · 0 评论 -
从零开始学爬虫(8)——浏览器发送请求的流程
一、浏览器发送HTTP请求的过程注意:浏览器渲染出来的页面和爬虫请求的页面不完全一样(原因是JS可能会调整界面内容),因此爬虫要根据当前URL地址对应的响应为准,当前URL地址的elements的内容和URL的响应不一样。DNS服务器的作用:域名解析。因为当我们单纯的记忆类似于192.168.1.1这样的IP地址很难记忆,所以我们使用了www.baidu.com这样的域名来记一些网址,当我们...原创 2019-11-20 00:00:22 · 302 阅读 · 0 评论 -
从零开始学爬虫(7)——robots协议
一、robots协议下图截自《HTTP权威指南》:例如获取淘宝的robots.txt文件方法:登录:https://www.taobao.com/robots.txt原创 2019-11-19 01:02:47 · 195 阅读 · 0 评论 -
从零开始学爬虫(6)——爬虫学习流程以及爬虫的作用
一、爬虫学习流程在第四步中,还可能会涉及到MongoDB(一个介于关系型和非关系型数据库的产品,是非关系型数据库中功能最丰富的、最像关系型数据库的)二、爬虫的用处大数据时代,获取数据(例如“微指数”网站)获取其他网站的资源(例如百度新闻“news.baidu.com”)模拟人使用网站上的功能(12306抢票、网站上的投票、短信轰炸)三、爬虫的定义网络爬虫(网络蜘蛛、网络机器人)...原创 2019-11-19 00:48:01 · 391 阅读 · 0 评论 -
从零开始学爬虫(5)——爬虫的流程
一、爬虫的分类**通用爬虫:**通常是指搜索引擎的爬虫**聚焦爬虫:**针对特定网站的爬虫二、通用搜索引擎和聚焦爬虫工作的原理其中从相应内容中再次提取URL指的是有些网站例如新浪网站中,新闻分了很多页,我们要从返回的页面中提取“下一页”等等的URL...原创 2019-11-19 00:30:45 · 205 阅读 · 0 评论 -
从零开始学爬虫(4)—— URL格式和HTTP请求形式
一、URL格式URL是指在WWW上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Uniform Resource Locator,统一资源定位符),它是WWW的统一资源定位标志,就是指网络地址。平时当我们登陆百度的时候我们可能只是输入:www.baidu.com,然而进入网页之后我们再看导航栏,其实会发现完整的URL是这样的:https://www.baidu.com/,当...原创 2019-11-14 03:18:43 · 637 阅读 · 0 评论 -
从零开始学爬虫(3)—— markdown的介绍
本文只是为了保证全套的文章的完整性。至于markdown的用法,其实我写优快云博客的时候用到的就是markdown编辑器。markdown是一种文本编辑的工具,下图列出来的是一些使用方法,如果需要更多的方法,请看我的这篇文章《优快云-markdown编辑器》:...原创 2019-11-14 02:45:29 · 207 阅读 · 0 评论 -
从零开始学爬虫(2)——HTTP 和 HTTPS
HTTP 和 HTTPSHTTP:超文本传输协议使用端口号为80HTTP 的信息是明文传输HTTP 的链接是无状态的HTTPS:是在HTTP和TCP之间加了一层SSL/TLS层使用端口号为443HTTPS 是具有安全性的加密传输HTTPS 可进行加密传输和身份确认,所以HTTPS更加安全HTTPS 需要申请 CA 证书,大部分需要交费...原创 2019-11-14 02:26:03 · 193 阅读 · 0 评论 -
从零开始学爬虫(1)——爬虫流程以及字符串的区别与转化
从今天开始,我将开始跟随B站“黑马程序员”的爬虫项目来学习爬虫的相关知识。希望能坚持到学有所成。一、爬虫流程二、str 类型和 bytes 类型bytes 类型是二进制,在互联网上数据的传输都是以二进制传输的。str 字符串类型,使用各种编码格式来将其呈现出来,关于编码请看我的这篇文章《编码问题的故事》编码方式必须与解码方式一样,不然会乱码>>> a = "西北...原创 2019-11-13 01:15:51 · 298 阅读 · 0 评论