Chapter 13:Understanding HTML&Assignment(2)

本文介绍了一个使用Python进行网页链接爬取的递归函数实现。该函数通过urllib和BeautifulSoup库来解析HTML并抽取指定位置的链接,根据用户设定的循环次数重复这一过程。文章讨论了在递归调用过程中如何正确管理和初始化列表变量,以及在函数内部修改传递参数的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

先贴代码,这个任务主要是抽取链接到其他页面的超链接,然后进入,在抽取,再进入。如此反复。(抽取几次代码中是根据用户输入的次数决定)

import urllib
from BeautifulSoup import *

lst=list()
i=0
url = raw_input('Enter url:')
count=raw_input('Enter count:')
position=raw_input('Enter position:')

def crawl(url):
    html = urllib.urlopen(url).read()
    soup = BeautifulSoup(html)
    tags = soup('a')
    for tag in tags:
        lst.append(tag.get('href', None))
#    url = lst[int(position)-1]


for i in range(int(count)+1):
    print url
    crawl(url)
    url = lst[int(position)-1]
    lst=[]

我用的是def一个函数然后递归调用的方法。
这次主要遇到的两个问题,
一个是构造的list,在每次进入函数时应该将它清零,否则输出的url将一直是第一次的。(因为其他的会被append()到后面)
二是关于能否在函数中修改传入的参数(本例中为url)的值,在这个例子中是不可以(参见crawl()中我注释掉的那行),但是我还没找到原因,如果在函数中修改url的值,同样一直输出第一次找到的url。

*python中设定要几次循环的方法:

for i in range(4)

则i会从0循环到3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值