Python爬虫学习笔记（二）

最新推荐文章于 2024-08-03 20:25:54 发布

pwn-尚1书_

最新推荐文章于 2024-08-03 20:25:54 发布

阅读量144

点赞数

文章标签： python http web https

本文链接：https://blog.youkuaiyun.com/xiaoka__/article/details/119235590

版权

在Python中有一个可以连接互联网的库叫做requests，我们写爬虫代码都要引入这个库。

首先要安装这个库，在终端打如下代码：

pip install requests

pip是Python中的一个安装工具，我们可以用它下载、安装各种库。

接下来做一个简单的操作——获得百度首页的HTML代码。

import requests
resp=requests.get('https://baidu.com/index.html')
print(resp.text)

运行后，终端就会显示百度首页的HTML代码。

但是，这种没有伪装成浏览器的代码，网站会识别出来，不给返回内容。

例如以下代码：

import requests
resp=requests.get('https://movie.douban.com/top250')
print(resp.status_code)

返回的状态值是418，不是200。

这时候，我们就需要伪装成一个浏览器，在爬虫代码中插入如下代码：

import requests
resp=requests.get(
    url='https://movie.douban.com/top250',
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0'}
)
print(resp.status_code)

这次http响应状态码就是200了。

这里博主要强调一下Python中括号要写整齐，注意缩进，注意段落结构，增强代码的规范性。

或者不用自己的浏览器，可以看看该网站的爬虫协议文件(在网站中输入url+robots.txt，这个协议好像在攻防世界web新手区见过)，伪装成allow的服务器。例如豆瓣可以让百度爬，代码如下：

import requests
resp=requests.get(
    url='https://movie.douban.com/top250',
    headers={
        'User-Agent':'BaiduSpider'}
)
print(resp.status_code)

ps：爬的太频繁百度会封你的IP，自己的浏览器也是。

接下来我们来爬一下豆瓣250榜单电影第一页。

import re
from typing import Pattern
import requests

resp=requests.get(
    url="https://movie.douban.com/top250",
    headers={
        'User-Agent':'BaiduSpider'
    }

)

print(resp.status_code)

pattern=re.compile(r'\<span class="title"\>(.*?)\<\/span\>')
print(pattern.findall(resp.text))

这里我们使用了正则表达式，需要引入re这个库。关于from typing import Pattern这句是调试的时候自己出现的，不是博主写的。
直接右键查看网页源代码，把<span class=“title”>肖申克的救赎</span>这句话复制下来，把肖申克的救赎改为(.*?)，关于正则表达式，博主之后再介绍。

看奥运去撩！再见！