python BeautifulSoup 抓取python中文开发者社区中的所有高级教程

本文介绍如何运用Python的BeautifulSoup库高效地抓取Python中文开发者社区内的高级教程资源,通过实例代码详细解析抓取过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

话不多说直接上代码:

#coding=utf-8
from bs4 import BeautifulSoup
import urllib2

url = 'http://www.pythontab.com/html/pythonhexinbiancheng/index.html'
url_list = [url]
for i in range(2,19):
    url_list.append('http://www.pythontab.com/html/pythonhexinbiancheng/%s.html'%i)
source_list = []
for j in url_list:
    request = urllib2.urlopen(j)
    html = request.read()
    suop = BeautifulSoup(html,'lxml')
    titles = suop.select('#catlist > li > a')
    links = suop.select('#catlist > li > a')
    for title, link in zip(titles, links):
        data = {
            "title" : title.get_text(),
            "link" : link.get('href')
        }
        source_list.append(data)
    for l in source_list:
        request = urllib2.urlopen(l['link'])
        html = request.read()
        suop = BeautifulSoup(html,'lxml')
        text_p = suop.select('#Article > div.content > p')
        text = []
        print(text_p)
        for t in text_p:
            text.append(t.get_text().encode('utf-8'))
        title_text  = l['title']
        title_text = title_text.replace('*','').replace('/','or').replace('"',' ').replace('?','wenhao').replace(':',' ')

        with open('%s.txt'%title_text, 'wb') as f:
            for a in text:
                f.write(a)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值