最近要跟着同学做一个小项目,需要自己找语料库,于是我用python 的 beautifulsoup 和urllib 来抓取一些网页内容来做训练语料。现在写下来备忘,虽然还有些不足。
这里,我抓取的是凤凰军事的滚动新闻,点开后可以发现是一系列的新闻链接,所以接下来就分两个方面的工作,第一个是将这些新闻链接全部提取出来,保存文本。第二个是根据这些链接访问网页,抓取正文内容,再保存文本。
提取新闻链接
通过分析滚动新闻的网页源码,发现这些超链接都是在<div class = "main"> </div>标签之间(不同网站有不同的格式),用beautifulsoup来提取比较好,若用urllib容提取到其他url,不易区分。
我们在