2019.04.13 请求

最新推荐文章于 2021-10-08 01:00:07 发布

转载最新推荐文章于 2021-10-08 01:00:07 发布 · 147 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/Py-king/p/10707212.html

文章标签：

#python #爬虫

本文介绍了从专注于Django框架的开发者如何转向掌握爬虫技术，详细讲解了使用requests模块进行HTTP请求及BeautifulSoup进行HTML解析的方法。从安装必要模块开始，逐步演示了如何爬取豆瓣电影Top250榜单数据，包括排名、电影名、导演、评语和评分等内容。此外，还介绍了如何利用BeautifulSoup的find和find_all方法定位所需信息，并将结果保存至本地文件。

一直在学习Django，我都要忘了怎么发送请求了

因为在Django中一直请求的是自己内部的url 而怎么访问百度呢？

https://www.cnblogs.com/zealousness/p/8748906.html

https://www.jianshu.com/p/9e50c58dabdd

首先得先安装 pip install requests 这个模块

http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced

处理图像你还得安装 pip install pillow 模块

按照上面流程下来还是一脸懵呀

那就通过爬虫来了解这HTTP吧

https://movie.douban.com/top250

https://www.cnblogs.com/haichong/p/8067874.html

1.首先得知道自己要爬哪里网址分析？后的参数知道如何分页的

2.明确我要爬取的内容数据吧，排名，名字，导演，评语，评分然后要查看元素所在的位置

现在的问题是这些方法我不知道怎么用

BeautifuSoup 这肯定是个过滤器查找特定的过滤器

os路径的问题

我们就来介绍一个强大的解析工具Beautiful Soup，它借助网页的结构和属性等特性来解析网页。有了它，我们不用再去写一些复杂的正则表达式，只需要简单的几条语句，就可以完成网页中某个元素的提取。

3、解析器
Beautiful Soup在解析时实际上依赖解析器，它除了支持Python标准库中的HTML解析器外，还支持一些第三方解析器（比如lxml）

欧克理清思路再自己动手

爬虫需要请求和解析HTML元素 python为我们提供了两种模块

from bs4 import BeautifulSoup

import requests

先是获取网页，那么就是要请求

requests.get(url=,headers = )

请求地址，请求头 UA伪装代理浏览器然后已经请求到了网页

那么接下来解析网页，获取想要的内容

先创建一个BeautifulSoup的实例对象soup 把内容传进去，用lxml解析

过滤自己需要的那部分信息就好了用BeautifulSoup 提供的方法find（）find_all("")

到此获取和分析基本的网页结构已经好了接下就应该是获取里面的内容了

如何获取内容呢通过get_text()

下一步是如何存到文件中呢

有个负责路径的模块 import os

print(response)

#输出

<Response [200]>

也算是完成了吧爬虫三步走：请求地址，获取内容，存储文件

　　　　　　　　　对应模块：requests bs4 BeautifulSoup os

转载于:https://www.cnblogs.com/Py-king/p/10707212.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。