python 爬取自如租房的租房数据
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
import requests
import pytesseract
from PIL import Image
from selenium import webdriver
from fake_useragent import UserAgent
from lxml import etree
from urllib import parse
import pandas as pd
from datetime import datetime
ua = UserAgent()
headers = {"User-Agent": ua.random,
"Referer": "http://gz.ziroom.com/"}
class ZiRoom(object):
def __init__(self):
self.driver = webdriver.Chrome()
self.all_data = []
def get_content(self, name):
div_list = self.driver.find_elements_by_xpath('//*[@id="houseList"]/li')
number = self.get_image_number()
print(number)
for div in div_list[1:]:
try:
price_list = []
# 如果网页中的值不存在 则可能会存在部分数据丢失 也就是空数据丢失 基本不会有什么影响
for i in range(2, 6):
start_price = \
div.find_element_by_xpath('.//div[3]/p/span[{}]'.format

该博客介绍了如何利用Python爬虫抓取自如租房网站上的信息,并结合图像识别技术来获取和解析房源的价格数据。作者提供了完整的代码示例链接,可以在GitHub上查看。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



