Python爬虫是一种自动化的方式来从网站上提取信息。下面是一个简单的Python爬虫示例,使用requests库来发送 HTTP 请求和BeautifulSoup库来解析HTML文档。如果你还没有安装这些库,请先使用pip install requests beautifulsoup4命令进行安装。
import requests
from bs4 import BeautifulSoup
# 目标网页的 URL
url = 'http://example.com'
# 发送 GET 请求
response = requests.get(url)
# 确保请求成功
if response.status_code == 200:
# 使用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(response.text, 'html.parser')
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
# 遍历并打印每个段落的文本
for p in paragraphs:
print(p.get_text())
else:
print('Failed to retrieve the webpage')
请注意,这只是一个非常基础的示例。实际的爬虫可能需要处理更多复杂的情况,
如:请求头信息、Cookie、JavaScript渲染的内容、分页处理、反爬虫策略等。
这个示例代码做了以下几件事情:
1.导入所需的库。
2.定义目标网页的 URL。
3.使用 requests.get 发送 HTTP GET 请求。
4.检查响应状态码,确保请求成功。
5.使用 BeautifulSoup 解析 HTML 内容。
6.找到所有的 <p> 标签(即段落)。
7.遍历这些段落,并打印它们的文本内容。
请记得遵守目标网站的 robots.txt 文件规定,尊重版权和隐私政策,合法使用爬虫技术。此外,一些网站可能需要更高级的处理,例如登录、处理 JavaScript 动态内容等,这可能需要使用如 Selenium 等工具。