【无标题】写一个小小的爬虫程序，爬一下“百度一下”四个字

最新推荐文章于 2025-11-25 15:41:20 发布

原创最新推荐文章于 2025-11-25 15:41:20 发布 · 772 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

本文介绍了爬虫的基本概念，包括其工作原理、目的和应用场景。重点讲解了使用Python的requests和lxml库进行基础爬虫操作，如发送GET请求、解析HTML内容和使用XPath。

爬虫（也称网络爬虫、网络蜘蛛、网页蜘蛛等）是一种按照一定的规则自动抓取万维网信息的程序或脚本。它们在网络中漫游，寻找并抓取特定的数据，然后将其返回给用户或保存到本地以供后续使用。

爬虫的主要目的是从网站中提取结构化数据，并将其存储在本地或以其他方式使用。它们通常用于搜索引擎索引、数据挖掘、竞争情报、价格监测等领域。

爬虫的实现需要了解HTTP协议、HTML和CSS基础知识，以及Python等编程语言。在实现爬虫时，需要遵循网站的robots.txt文件规定，以避免对网站造成不必要的影响或被封禁。

常见的爬虫框架包括Scrapy、BeautifulSoup、Selenium等。其中Scrapy是一个流行的Python爬虫框架，它提供了强大的功能和灵活性，可用于抓取各种类型的网站。BeautifulSoup和Selenium则分别提供了用于解析HTML和模拟用户操作的工具。

初步学习爬虫，写一个小程序练练手；

# 导入requests库
import requests

# 定义目标URL
url = "https://www.baidu.com/"

# 定义请求头，模拟浏览器访问
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0"
}

# 使用requests库的get方法发起请求，存储响应结果在resp变量中
resp = requests.get(url, headers=headers)

# 打印网页内容（可选）
# print(resp.text)

# 导入lxml库的etree模块
from lxml import etree

# 使用etree的HTML方法解析响应内容，生成HTML树，存储在tree变量中
tree = etree.HTML(resp.text)

# 使用XPath表达式查找id为"su"的input元素的value属性值，存储在content变量中
content = tree.xpath('//input[@id="su"]/@value')[0]

# 打印查找到的内容
print(content)