〇. python 基础
先放上python 3 的官方文档:https://docs.python.org/3/ (看文档是个好习惯)
关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找.
一. 最简单的爬取程序
爬取百度首页源代码:

来看上面的代码:
对于python 3来说,urllib是一个非常重要的一个模块 ,可以非常方便的模拟浏览器访问互联网,对于python 3 爬虫来说, urllib更是一个必不可少的模块,它可以帮助我们方便地处理URL.
urllib.request是urllib的一个子模块,可以打开和处理一些复杂的网址
如果你在学习Python的过程当中有遇见任何问题,可以加入我的python交流学习qq群:250933691,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习python有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我
The urllib.request
module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.
urllib.request.urlopen()方法实现了打开url,并返回一个 http.client.HTTPResponse对象,通过http.client.HTTPResponse的read()方法,获得response body,转码最后通过print()打印出来.
urllib.request.urlopen(url, data=None, [timeout, ]***, cafile=None, capath=None,cadefault=False, context=None)
For HTTP and HTTPS URLs, this function returns a http.client.HTTPResponse
object slightly modified.
< 出自: https://docs.python.org/3/library/urllib.request.html >
decode('utf-8')用来将页面转换成utf-8的编码格式,否则会出现乱码
二 模拟浏览器爬取信息
在访问某些网站的时候,网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫,用来作为反爬取的一种策略。
先来看一下Chrome的头信息(F12打开开发者模式)如下:

如图,访问头信息中显示了浏览器以及系统的信息(headers所含信息众多,具体可自行查询)
Python中urllib中的request模块提供了模拟浏览器访问的功能,代码如下:
from urllib&n

本文是Python爬虫学习笔记的第一部分,介绍了Python基础、使用urllib进行简单爬取、模拟浏览器爬取、利用BeautifulSoup解析网页以及将数据存储到本地的方法。详细讲解了urllib.request模块的功能,包括模拟浏览器头信息,以及使用BeautifulSoup解析HTML获取文章标题。最后展示了如何将爬取的图片保存到本地。
最低0.47元/天 解锁文章
898

被折叠的 条评论
为什么被折叠?



