Python学习（2）

转载于 2017-11-07 15:31:00 发布 · 70 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/558882

文章标签：

#python

本文介绍了一个简单的Python爬虫示例，使用urllib和BeautifulSoup库从指定网站抓取部分链接，并递归地访问这些链接。该示例展示了如何解析HTML文档，筛选出目标链接并进行递归爬取。

爬取网页的部分链接

#!/usr/bin/python
#coding = utf8
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
pages = set()
def getlink(pageurl):
    global pages
    html = urlopen('http://www.ftchinese.com' + pageurl)
    bs_data = BeautifulSoup(html,'lxml')
#from ipdb import set_trace
#set_trace()
    for link in bs_data.find_all('a',href = re.compile("^(/m/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
            #我们遇到了新页面
                newpage = link.attrs['href']
                print(newpage)
                pages.add(newpage)
                getlink(newpage)
getlink("")