Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索
发布时间:2020-07-20 23:48:19
来源:51CTO
阅读:883
python编译练习,为了将自己学习过的知识用上,自己找了很多资料。所以想做一个简单的爬虫,代码不会超过60行。主要用于爬取的古诗文网站没有什么限制而且网页排布很规律,没有什么特别的东西,适合入门级别的爬虫。
抓取目标站点的准备工作
Python的版本是:3.4.3.
爬取的目标是: 古诗文网(www.xzslx.net)
随意打开一个古诗文网的古诗页面,查看它的网页地址就能看到,古诗的地址基本是 “www.xzslx.net/shi/+ id + .html” 构成,如下图:
然后对古诗文网的古诗总览页面可以看到分页符 最下方:
总共包括29830篇古诗文可以抓取,确定了”/shi/”后面数字的范围。
html页面解析库:BeautifulSoup
安装方式是: $pip3 install BeautifulSoup4
主要参考文献:《python网络数据采集》第一、二章
代码解析:#!usr/bin/python3
# -*- coding:utf-8 -*-
import re
from urllib.request import urlopen
from urllib.erroe import HTTPError
from bs4 import BeautifulSoup
def getPage(url) :
<
这篇博客介绍了一个Python初级爬虫项目,通过爬取古诗文网站www.xzslx.net,搜索包含特定词汇的诗句。文章详细阐述了如何构造URL、使用BeautifulSoup解析HTML、正则表达式提取句子,并将结果保存到result.txt文件中。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



