python 爬虫动态加载网站

本文介绍了一种通过Python爬取动态加载网页的方法,重点在于分析网页URL的变化规律,并使用正则表达式提取所需链接。文章提供了具体实现代码,包括处理URL、请求网页、解析数据等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

找到网页动态加载的url变化规律,比如此次试验中是http://www.wjdiankong.cn/page/num/  ; num从1自增


#!/user/bin/env python
#-*- coding: utf-8 -*-


import re  
import urllib2 
import urllib 
import cookielib 
import requests
import sys


URL = "http://www.wjdiankong.cn/page/{}/" 
reg = '<a target="_blank" href="http://www.wjdiankong.cn/.*/" title=".*">'


def geturl():
    input = open(r"E:\url.txt", 'w+')
    for i in range(1,29):
        url = URL.format(i)
        print url
        r = requests.get(url)
        data = r.text
        #print data
    
        # 利用正则查找所有连接
        regex = re.compile(reg,flags=re.MULTILINE)  
        link_list = regex.findall(data)
        for url in link_list:
            url_article = url[24:].split('''"''')[1]
            data = urllib.unquote(str(url_article))
            print data
            input.write(data)
            input.write("\n\n")


geturl()

注意的点:

urllib.unquote()乱码的原因是:unquote方法接收参数类型是unidoe,返回的值类型也是unicode

解决办法将参数的值转换成str类型


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值