自上次成功尝试爬取了静态页面的图片之后,本白又跟着另一篇博文做了一下爬取网页文本的尝试。基本代码都是来源于该篇博文,本人只是做了轻微修改。
以python3为背景,这里还是先定义一个读取html页面信息的函数:
import urllib.request
def getHtml(url):
page = urllib.request.urlopen(url) #打开url地址
html = page.read().decode('utf-8') #读取html页面数据
return html
下面定义了一个获取网页文本的函数
def getWord(html):

本文介绍了作者使用Python3和BeautifulSoup库进行网页文本爬取的体验,强调了在使用BeautifulSoup时应注意的细节,如正确使用`findAll`函数。文章提供了一个简单的爬虫代码示例,展示如何获取HTML页面中特定标签的文本内容。
最低0.47元/天 解锁文章
1121

被折叠的 条评论
为什么被折叠?



