Python网络编程（五）-利用requests和BeautifulSoup进行网络数据抓取和解析

最新推荐文章于 2024-09-13 20:10:53 发布

原创

最新推荐文章于 2024-09-13 20:10:53 发布 · 3.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#BeautifulSoup #bs4 #python #爬虫 #网页爬虫

1. BeautifulSoup简介：

在介绍了urllib，urllib3，requests等数据爬取相关的python库后，今天，再介绍一个更为流行的网页数据爬虫库，BeautifulSoup。

BeautifulSoup是有一个非常流行的python库，最主要的功能是从网页抓取数据。
BeautifulSoup可以对抓取的网页中的数据进行分析。BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为 utf-8 编码。你几乎不需要考虑编码方式，当然，你也可以指定编码方式。
BeautifulSoup和requests、lxml、html6lib结合，更可以打造强大的数据爬取和解析利器。

2. BeautifulSoup实践：

例子：利用BeautifulSoup和requests对网页进行分析，获取网址和名称。

#获取网站网址和名称，以http://news.163.com/photo/#Current为例。
#http://news.163.com/photo/#Current是网易图片的网站

import requests
from bs4 import BeautifulSoup as bs

#获取网页内容
def get_web_content(url):
	print(url)
	res = requests.get(url) #发送请求
	#print(res.encoding)    #查看网页编码的
	#res.encoding = 'utf-8' #跟上一个(res.encoding)结合来用，如果编码有乱码，则可以通过这个定义编码来改变
	html = res.text     
	#print(html)

	item_list = []
	soup  = bs(html,"html.parser")     #定义一个BeautifulSoup变量
	#items = soup.find_all('div',attrs={'class':'nav-mod-1'