使用Selenium实现Airbnb数据爬取 - mlcourse.ai项目实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00539/article/details/148416332

使用Selenium实现Airbnb数据爬取 - mlcourse.ai项目实战指南

mlcourse.ai Open Machine Learning Course 项目地址: https://gitcode.com/gh_mirrors/ml/mlcourse.ai

前言

在数据分析和机器学习项目中，获取高质量的数据往往是第一步也是关键的一步。本文将介绍如何使用Selenium框架从Airbnb这类动态网站中高效地收集数据，这是mlcourse.ai项目中一个非常实用的技术案例。

Selenium简介

Selenium最初是为Web应用程序测试而设计的自动化工具，但它强大的浏览器模拟能力使其成为数据收集的理想选择。与传统的静态网页收集工具（如BeautifulSoup）相比，Selenium能够：

处理JavaScript动态加载的内容
模拟用户交互行为（点击、输入等）
等待页面元素加载完成
处理复杂的页面跳转和表单提交

环境配置

安装步骤

安装Selenium库：
```
pip install selenium
```
下载浏览器驱动（以Firefox为例）：
- 推荐使用Firefox浏览器，因其对Selenium的支持更稳定
- 下载对应版本的geckodriver
- 将驱动路径添加到系统环境变量中

基础验证

验证安装是否成功：

from selenium import webdriver

driver = webdriver.Firefox()
driver.get("https://mlcourse.ai/roadmap")

核心API解析

元素查找方法

按ID查找：

driver.find_element_by_id("element_id")

按XPath查找：

driver.find_element_by_xpath("xpath_expression")

按链接文本查找：

driver.find_element_by_link_text("链接文本")

交互方法

输入文本：
```
element.send_keys("文本内容")
```
点击元素：
```
element.click()
```

等待加载：

import time
time.sleep(秒数)  # 简单等待

Airbnb数据收集实战

项目目标

构建一个自动化脚本，定期收集伦敦地区特定日期范围内的Airbnb房源信息，包括：

房源基本信息
价格数据
评价信息

实现步骤

1. 设置搜索条件

# 初始化浏览器
driver = webdriver.Firefox()
driver.get("https://ru.airbnb.com/")

# 输入目的地
search_field = driver.find_element_by_id("Koan-magic-carpet-koan-search-bar__input")
search_field.send_keys("London, United Kingdom")
time.sleep(2)
driver.find_element_by_id("Koan-magic-carpet-koan-search-bar__option-0").click()

2. 处理日期选择器

日期选择是收集中最复杂的部分之一，需要：

点击日期输入框
切换月份视图
选择具体日期

# 选择入住日期
driver.find_element_by_id("checkin_input").click()
time.sleep(2)

# 切换到目标月份
for _ in range(3):  # 从当前月切换到3月
    next_month_btn = driver.find_element_by_xpath("月切换按钮XPath")
    next_month_btn.click()
    time.sleep(2)

# 选择具体日期（15日）
date_element = driver.find_element_by_xpath("具体日期XPath")
date_element.click()

3. 设置人数

# 打开人数选择面板
driver.find_element_by_xpath("人数选择按钮XPath").click()
time.sleep(2)

# 增加成人数量
for _ in range(2):
    add_adult_btn = driver.find_element_by_xpath("增加成人按钮XPath")
    add_adult_btn.click()
    time.sleep(1)

4. 执行搜索并获取结果

# 点击搜索按钮
driver.find_element_by_xpath("搜索按钮XPath").click()
time.sleep(5)

# 显示所有结果
driver.find_element_by_xpath("显示全部按钮XPath").click()
time.sleep(3)

数据提取技巧

在获取到结果页面后，可以结合BeautifulSoup进行数据解析：

from bs4 import BeautifulSoup

# 获取页面源码
page_source = driver.page_source
soup = BeautifulSoup(page_source, 'html.parser')

# 提取房源信息
listings = soup.find_all('div', class_='listing_class')
for listing in listings:
    title = listing.find('div', class_='title_class').text
    price = listing.find('span', class_='price_class').text
    # 其他字段提取...

最佳实践建议

异常处理：添加try-except块处理元素找不到等情况
随机延迟：避免被识别为自动化程序
用户代理轮换：模拟不同浏览器访问
无头模式：生产环境可使用无头浏览器节省资源
数据存储：建议使用数据库存储收集结果

完整代码结构

def collect_airbnb_data(destination, checkin_date, checkout_date, adults=2):
    """
    完整的Airbnb数据收集函数
    
    参数:
        destination: 目的地字符串 (如"London, United Kingdom")
        checkin_date: datetime.date对象
        checkout_date: datetime.date对象
        adults: 成人数量
    """
    # 初始化浏览器
    driver = webdriver.Firefox()
    
    try:
        # 1. 访问首页并设置搜索条件
        # 2. 处理日期选择
        # 3. 设置人数
        # 4. 执行搜索
        # 5. 解析结果
        
        return listings_data
    finally:
        driver.quit()  # 确保浏览器关闭