之所以写这个,是因为搜不到关于wiki爬取方面的教程。
先学习:
正则表达式,http://python.jobbole.com/81346/
BeautifulSoup(html文档解析器),http://python.jobbole.com/81349/
爬取糗事百科实例,http://python.jobbole.com/81351/
现在开始爬取wiki数据:
分析页面,F12,找到要的内容,如下:
但有一点,注意:
解决这个干扰的方法是:
ps=div.find_all(name='p', limit=3, recursive=False) #only direct children
<