beautifulsoup实践:房屋价格数据

使用Python的requests和BeautifulSoup库从北京安居客网站爬取房产销售信息,包括房源名称、价格、单价、房间数量、面积、楼层、建造年份、经纪人、地址及标签,并通过循环和时间延迟实现多页数据抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import requests
from bs4 import BeautifulSoup
import time
    
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98
Safari/537.36'}
for i in range(1,11):
    link = 'https://beijing.anjuke.com/sale/p' + str(i)
    r = requests.get(link, headers = headers)
    print ('现在爬取的是第', i, '页')

    soup = BeautifulSoup(r.text, 'lxml')
    house_list = soup.find_all('li', class_="list-item")

    for house in house_list:
          name = house.find('div', class_ ='house- title').a.text.strip()
          price = house.find('span', class_='price det').text.strip()
          price_area = house.find('span', class_='unit price').text.strip()
          no_room = house.find('div', class_='details item').span.text
          area = house.find('div', class_='details item').contents[3].text
          floor = house.find('div', class_='details item').contents[5].text
          year = house.find('div', class_='details  item').contents[7].text
          broker = house.find('span', class_='brokername').text
          broker = broker[1:]
          address = house.find('span', class_='comm  address').text.strip()
          address = address.replace('\xa0\xa0\n ', ' ')
          tag_list = house.find_all('span', class_='item-tags')
          tags = [i.text for i in tag_list]
          print (name, price, price_area, no_room, area, floor, year, broker, address, tags)
    time.sleep(5)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值