环境准备
在开始编写代码之前,请确保你的Python环境中已经安装了selenium
和beautifulsoup4
库。同时,你还需要下载并配置Microsoft Edge WebDriver,因为我们将使用Edge浏览器来模拟用户的网页访问行为。WebDriver的路径需要根据你的系统环境进行设置。
-
安装Selenium和BeautifulSoup:
-
pip install selenium beautifulsoup4
-
下载并配置Edge WebDriver:下载链接(注意选择与你的Edge浏览器版本相匹配的WebDriver)
编写代码
以下是一个简洁的Python脚本,用于从中国散文网(或其他类似网站)爬取纯文本段落,并将它们保存到TXT文件中。
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from bs4 import BeautifulSoup
import os
# 指定Edge WebDriver的路径
edge_service = Service(executable_path='C:\\Users\\LENOVO\\Desktop\\爬虫\\实验\\msed