1. BeautifulSoup简介:
在介绍了urllib,urllib3,requests等数据爬取相关的python库后,今天,再介绍一个更为流行的网页数据爬虫库,BeautifulSoup。
BeautifulSoup是有一个非常流行的python库,最主要的功能是从网页抓取数据。
BeautifulSoup可以对抓取的网页中的数据进行分析。BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为 utf-8 编码。你几乎不需要考虑编码方式,当然,你也可以指定编码方式。
BeautifulSoup和requests、lxml、html6lib结合,更可以打造强大的数据爬取和解析利器。
2. BeautifulSoup实践:
例子:利用BeautifulSoup和requests对网页进行分析,获取网址和名称。
#获取网站网址和名称,以http://news.163.com/photo/#Current为例。
#http://news.163.com/photo/#Current是网易图片的网站
import requests
from bs4 import BeautifulSoup as bs
#获取网页内容
def get_web_content(url):
print(url)
res = requests.get(url) #发送请求
#print(res.encoding) #查看网页编码的
#res.encoding = 'utf-8' #跟上一个(res.encoding)结合来用,如果编码有乱码,则可以通过这个定义编码来改变
html = res.text
#print(html)
item_list = []
soup = bs(html,"html.parser") #定义一个BeautifulSoup变量
#items = soup.find_all('div',attrs={'class':'nav-mod-1'

最低0.47元/天 解锁文章
1120





