之所以写这个,是因为搜不到关于wiki爬取方面的教程。
先学习:
正则表达式,http://python.jobbole.com/81346/
BeautifulSoup(html文档解析器),http://python.jobbole.com/81349/
爬取糗事百科实例,http://python.jobbole.com/81351/
现在开始爬取wiki数据:
分析页面,F12,找到要的内容,如下:
但有一点,注意:
解决这个干扰的方法是:
ps=div.find_all(name='p', limit=3, recursive=False) #only direct children<

本文档介绍了如何使用Python的urllib库抓取wiki文章,并通过BeautifulSoup进行HTML解析。首先,文章提及了学习正则表达式和BeautifulSoup的基础知识,然后分享了一个爬取糗事百科的实例。接着,详细分析了wiki页面结构,指出在爬取过程中需要注意的干扰元素及解决方法。最后,展示了爬虫代码中提取网页内容的关键部分,主要涉及定位div和p标签内的文本内容。
最低0.47元/天 解锁文章
547

被折叠的 条评论
为什么被折叠?



