Python网络编程(五)-利用requests和BeautifulSoup进行网络数据抓取和解析

1. BeautifulSoup简介:

在介绍了urllib,urllib3,requests等数据爬取相关的python库后,今天,再介绍一个更为流行的网页数据爬虫库,BeautifulSoup。

BeautifulSoup是有一个非常流行的python库,最主要的功能是从网页抓取数据。
BeautifulSoup可以对抓取的网页中的数据进行分析。BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为 utf-8 编码。你几乎不需要考虑编码方式,当然,你也可以指定编码方式。
BeautifulSoup和requests、lxml、html6lib结合,更可以打造强大的数据爬取和解析利器。

2. BeautifulSoup实践:

例子:利用BeautifulSoup和requests对网页进行分析,获取网址和名称。

#获取网站网址和名称,以http://news.163.com/photo/#Current为例。
#http://news.163.com/photo/#Current是网易图片的网站

import requests
from bs4 import BeautifulSoup as bs

#获取网页内容
def get_web_content(url):
	print(url)
	res = requests.get(url) #发送请求
	#print(res.encoding)    #查看网页编码的
	#res.encoding = 'utf-8' #跟上一个(res.encoding)结合来用,如果编码有乱码,则可以通过这个定义编码来改变
	html = res.text     
	#print(html)

	item_list = []
	soup  = bs(html,"html.parser")     #定义一个BeautifulSoup变量
	#items = soup.find_all('div',attrs={'class':'nav-mod-1'
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liranke

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值