2019.04.13 请求

本文介绍了从专注于Django框架的开发者如何转向掌握爬虫技术,详细讲解了使用requests模块进行HTTP请求及BeautifulSoup进行HTML解析的方法。从安装必要模块开始,逐步演示了如何爬取豆瓣电影Top250榜单数据,包括排名、电影名、导演、评语和评分等内容。此外,还介绍了如何利用BeautifulSoup的find和find_all方法定位所需信息,并将结果保存至本地文件。

一直在学习Django,我都要忘了怎么发送请求了

因为在Django中一直请求的是自己内部的url  而怎么访问百度呢?

https://www.cnblogs.com/zealousness/p/8748906.html

https://www.jianshu.com/p/9e50c58dabdd

 

首先得先安装 pip install requests   这个模块

 

http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced

处理图像你还得安装 pip install pillow   模块

按照上面流程下来还是一脸懵呀

那就通过爬虫来了解这HTTP吧

 

https://movie.douban.com/top250

 

https://www.cnblogs.com/haichong/p/8067874.html

 

1.首先得知道自己要爬哪里网址   分析?后的参数  知道如何分页的

2.明确我要爬取的内容数据吧,排名,名字,导演,评语,评分  然后要查看元素所在的位置

现在的问题是这些方法我不知道怎么用  

BeautifuSoup  这肯定是个过滤器  查找特定的过滤器

os路径的问题

 

我们就来介绍一个强大的解析工具Beautiful Soup,它借助网页的结构和属性等特性来解析网页。有了它,我们不用再去写一些复杂的正则表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取。 

 

3、 解析器 
Beautiful Soup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)

 

欧克  理清思路  再自己动手

爬虫需要请求和解析HTML元素  python为我们提供了两种模块

from bs4 import BeautifulSoup

import requests

 

先是获取网页,那么就是要请求 

requests.get(url=,headers = )

请求地址,请求头  UA伪装代理浏览器  然后已经请求到了网页

那么接下来解析网页,获取想要的内容

先创建一个BeautifulSoup的实例对象soup  把内容传进去,用lxml解析

过滤自己需要的那部分信息就好了  用BeautifulSoup 提供的方法find()find_all("")

到此获取和分析基本的网页结构已经好了  接下就应该是获取里面的内容了

 

如何获取内容呢  通过get_text()

 

下一步是如何存到文件中呢  

有个负责路径的模块  import os

 

print(response)

#输出

<Response [200]>

 

 

也算是完成了吧   爬虫三步走:请求地址,获取内容,存储文件

         对应模块:requests   bs4 BeautifulSoup   os

转载于:https://www.cnblogs.com/Py-king/p/10707212.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值