项目实战房租网 mongdb

最新推荐文章于 2025-06-01 10:43:14 发布

weixin_30745553

最新推荐文章于 2025-06-01 10:43:14 发布

阅读量82

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/mayunji/p/8711743.html

本文介绍了一个使用Python爬取安居客网站租房信息的简单项目。通过正则表达式精准抓取网页上的链接，并进一步获取房源详细信息如地址、联系人、电话、月租和面积等，最后将数据存入MongoDB数据库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标网址:url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#'

最终目的：将所有信息建立数据库并存入。

代码：

import re,requests,pymongo
client = pymongo.MongoClient('localhost',27017)
message = client['message']
add = message['123456']
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#'
def getlinks(url):
    wb_data = requests.get(url,headers=headers)
    links = re.findall('div class="zu-info".*?href="(.*?)"',wb_data.text,re.S)
    for link in links:
        link = link.strip('<%= item.url %>')
        getinfos(link)
def getinfos(url):
    try:
        wb_data = requests.get(url,headers=headers)
        addresses = re.findall('class="house-info-item l-width".*?<a.*?>(.*?)</a>.*?<a.*?>(.*?)</a>.*?<a.*?>(.*?)</a>',wb_data.text,re.S)
        names = re.findall('class="broker-name".*?>(.*?)</h2>',wb_data.text,re.S)
        phones = re.findall('div class="broker-mobile".*?class="iconfont".*?</i>(.*?)</div>',wb_data.text,re.S)
        moneys = re.findall('class="price".*?>.*?<em.*?>(.*?)</em>',wb_data.text,re.S)
        areas = re.findall('class="house-info-item".*?span class="info".*?>(.*?)</span>',wb_data.text,re.S)
        for address,name,phone,money,area in zip(addresses,names,phones,moneys,areas):
            data = {
                'url':url,
                '地址':address[1]+address[2]+address[0],
                '联系人':name,
                '电话':phone,
                '月租':money,
                '面积':area
            }
            add.insert_one(data)
    except:
        pass
getlinks(url)