爬取安居客的信息,并保存到csv文件中。

本文介绍如何避免使用XPath爬取安居客网站数据,以防止被封,同时指导将爬取的数据存储为CSV文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里说明下不要用xpath进行爬取,因为会被封。

# 引入包
import requests
from bs4 import BeautifulSoup
import time
import csv

# 定制请求头	换成自己的请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0',
}
# 输出查询信息
chaxun = input('请输入要查询的城市:')

# 将要访问的网址
link = 'https://'+chaxun+'.anjuke.com/sale/'

# 访问该网站
r = requests.get(link, headers=headers, timeout=100)

# 使用BeautifulSoup提取html中的内容
soup = BeautifulSoup(r.text, 'lxml')
house_list = soup.find_all('li', class_="list-item")

# 将爬取的内容写入 test.csv中,编码格式为 'UTF-8'
with open('test.csv', 'a', encoding='UTF-8', newline='') as csvfile:
    w = csv.writer(csvfile)

    for house in house_list:
        temp = []

        name = house.find('div', class_="house-title").a.text.strip()
        price = house.find('span', class_='price-det').text.strip()
        price_area = house.find('span', class_='unit-price').text.strip()
        no_room = house.find('div', class_='details-item').s
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值