Python爬虫_深圳活动

最新推荐文章于 2023-07-04 23:55:21 发布

原创最新推荐文章于 2023-07-04 23:55:21 发布 · 184 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #pycharm

python 专栏收录该内容

24 篇文章

订阅专栏

该博客分享了一段Python代码，用于爬取豆瓣上深圳地区的活动信息，包括活动名字、标签、时间、位置和价格，并将数据保存到Excel表格中，便于查看和参与感兴趣的活动。代码中设置了模拟浏览器头部信息以避免被网站识别为机器人。爬取的数据每10条保存一次，最终生成了一个包含多个活动详情的表格。

一个人在深圳蛮无聊的所以爬一下豆瓣上深圳有的活动，方便参加。

在这里插入图片描述

获取名字、标签、时间、位置、价格对于自己中意的直接参加或者了解详细后再说，爬取这个主要是有生成一个表格方便直接处理。下面是代码：

import re
import requests
import bs4
import re
import xlwt as xlwt

title = re.compile(r'<a .*title=(.*)">')
tag = re.compile(r'<a.*p=future">(.*)</a>')
time = re.compile(r'20..年.*~.*')
local = re.compile(r'<li title="(.*)"')
money = re.compile(r'<strong>(.*)<')
urls = []
head = {  # 模拟浏览器头部信息，向豆瓣发消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like; Gecko) Chrome / 86.0; .4240; .198; Safari / 537.36"}
book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建对象
sheet = book.add_sheet('深圳活动', cell_overwrite_ok=True)  # 创建工作表
col = ("名字", '标签', '时间', '位置', '钱')
for i in range(5):
    sheet.write(0,i,col[i])
book.save('深圳活动.xls')
num = 0
for i in range(0, 500, 10):
    url = 'https://www.douban.com/location/shenzhen/events/future-all?start=' + str(i)

    print(url)
    print(num)
    page_html = requests.get(url,headers=head).text
    # print(page_html)

    soup = bs4.BeautifulSoup(page_html,'html.parser')
    li_num =0
    for item in soup.find_all('li', class_ ='list-entry'):
        li = []

        if li_num !=10:
            li_num +=1
            num +=1
            item = str(item)
            Title = re.findall(title,item)[0]
            li.append(Title)

            Tag = re.findall(tag,item)
            li.append(Tag)

            Time = re.findall(time,item)
            li.append(Time)

            Local = re.findall(local,item)
            li.append(Local)

            Money = re.findall(money,item)
            li.append(Money)

            for i in range(5):
                sheet.write(num, i,li[i])
            book.save('深圳活动.xls')
        # 这里写的很蠢是因为爬取title的时候超出长度，一直不理解，想着每次也是爬10个就这么搞了。有更好的方法可以评论
        elif num %10 == 0:
            num +=1
            break