Python爬虫学习（1）_import requests from bs4 import beautifulsoup-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43363720/article/details/112794496

本文介绍了Python爬虫初学者如何从零开始学习爬虫技术，主要涉及Requests库的GET方法获取网页数据及BeautifulSoup库解析HTML文档。通过实例展示了如何使用这两个库抓取和解析网页内容，为后续的网页数据提取打下基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了完成毕业设计，从Python零基础开始学习爬虫技术。

1.Requests库

功能：用于网页请求
网页请求方式：GET方法（常用）与POST方法

使用GET方式抓取网页源码数据：

import requests        				#导入requests包
url = 'http://www.baidu.com/'		#将目标网页赋值给一个变量
strhtml = requests.get(url)        	#调用requests库的Get方法获取网页数据，并将其赋值给变量
print(strhtml.text)					#打印网页的文本数据

2.BeautifulSoup库

功能：从网页中抓取数据
常见方法：BeautifulSoup()、soup.select()、soup.prettify()等

简单示例：

import requests        							#导入requests包
from bs4 import    BeautifulSoup				#导入bs4中的BeautifulSoup包
url='http://www.baidu.com/'						
strhtml=requests.get(url)				
soup=BeautifulSoup(strhtml.text,'lxml')			#指定lxml解析器进行解析
print(soup)										#打印结果