项目实战房租网 mongdb

本文介绍了一个使用Python爬取安居客网站租房信息的简单项目。通过正则表达式精准抓取网页上的链接,并进一步获取房源详细信息如地址、联系人、电话、月租和面积等,最后将数据存入MongoDB数据库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标网址:url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#'

最终目的:将所有信息建立数据库并存入。

代码:

import re,requests,pymongo
client = pymongo.MongoClient('localhost',27017)
message = client['message']
add = message['123456']
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#'
def getlinks(url):
    wb_data = requests.get(url,headers=headers)
    links = re.findall('div class="zu-info".*?href="(.*?)"',wb_data.text,re.S)
    for link in links:
        link = link.strip('<%= item.url %>')
        getinfos(link)
def getinfos(url):
    try:
        wb_data = requests.get(url,headers=headers)
        addresses = re.findall('class="house-info-item l-width".*?<a.*?>(.*?)</a>.*?<a.*?>(.*?)</a>.*?<a.*?>(.*?)</a>',wb_data.text,re.S)
        names = re.findall('class="broker-name".*?>(.*?)</h2>',wb_data.text,re.S)
        phones = re.findall('div class="broker-mobile".*?class="iconfont".*?</i>(.*?)</div>',wb_data.text,re.S)
        moneys = re.findall('class="price".*?>.*?<em.*?>(.*?)</em>',wb_data.text,re.S)
        areas = re.findall('class="house-info-item".*?span class="info".*?>(.*?)</span>',wb_data.text,re.S)
        for address,name,phone,money,area in zip(addresses,names,phones,moneys,areas):
            data = {
                'url':url,
                '地址':address[1]+address[2]+address[0],
                '联系人':name,
                '电话':phone,
                '月租':money,
                '面积':area
            }
            add.insert_one(data)
    except:
        pass
getlinks(url)

总结:此项目并没有什么难度,主要是re的构造以精准抓取以及信息的提取。

最终效果图

我们还可以将数据库导出成xls文件更加方便查看 如果没有数据库可视化工具的话。

mogonexport -d 库名 -c 表名 --csv -f 导出字段 -o 2.csv文件类型   #在bin文件夹下

 

转载于:https://www.cnblogs.com/mayunji/p/8711743.html

内容概要:该PPT详细介绍了企业架构设计的方法论,涵盖业务架构、数据架构、应用架构和技术架构四大核心模块。首先分析了企业架构现状,包括业务、数据、应用和技术四大架构的内容和关系,明确了企业架构设计的重要性。接着,阐述了新版企业架构总体框架(CSG-EAF 2.0)的形成过程,强调其融合了传统架构设计(TOGAF)和领域驱动设计(DDD)的优势,以适应数字化转型需求。业务架构部分通过梳理企业级和专业级价值流,细化业务能力、流程和对象,确保业务战略的有效落地。数据架构部分则遵循五大原则,确保数据的准确、一致和高效使用。应用架构方面,提出了分层解耦和服务化的设计原则,以提高灵活性和响应速度。最后,技术架构部分围绕技术框架、组件、平台和部署节点进行了详细设计,确保技术架构的稳定性和扩展性。 适合人群:适用于具有一定企业架构设计经验的IT架构师、项目经理和业务分析师,特别是那些希望深入了解如何将企业架构设计与数字化转型相结合的专业人士。 使用场景及目标:①帮助企业和组织梳理业务流程,优化业务能力,实现战略目标;②指导数据管理和应用开发,确保数据的一致性和应用的高效性;③为技术选型和系统部署提供科学依据,确保技术架构的稳定性和扩展性。 阅读建议:此资源内容详尽,涵盖企业架构设计的各个方面。建议读者在学习过程中,结合实际案例进行理解和实践,重点关注各架构模块之间的关联和协同,以便更好地应用于实际工作中。
资 源 简 介 独立分量分析(Independent Component Analysis,简称ICA)是近二十年来逐渐发展起来的一种盲信号分离方法。它是一种统计方法,其目的是从由传感器收集到的混合信号中分离相互独立的源信号,使得这些分离出来的源信号之间尽可能独立。它在语音识别、电信和医学信号处理等信号处理方面有着广泛的应用,目前已成为盲信号处理,人工神经络等研究领域中的一个研究热点。本文简要的阐述了ICA的发展、应用和现状,详细地论述了ICA的原理及实现过程,系统地介绍了目前几种主要ICA算法以及它们之间的内在联系, 详 情 说 明 独立分量分析(Independent Component Analysis,简称ICA)是近二十年来逐渐发展起来的一种盲信号分离方法。它是一种统计方法,其目的是从由传感器收集到的混合信号中分离相互独立的源信号,使得这些分离出来的源信号之间尽可能独立。它在语音识别、电信和医学信号处理等信号处理方面有着广泛的应用,目前已成为盲信号处理,人工神经络等研究领域中的一个研究热点。 本文简要的阐述了ICA的发展、应用和现状,详细地论述了ICA的原理及实现过程,系统地介绍了目前几种主要ICA算法以及它们之间的内在联系,在此基础上重点分析了一种快速ICA实现算法一FastICA。物质的非线性荧光谱信号可以看成是由多个相互独立的源信号组合成的混合信号,而这些独立的源信号可以看成是光谱的特征信号。为了更好的了解光谱信号的特征,本文利用独立分量分析的思想和方法,提出了利用FastICA算法提取光谱信号的特征的方案,并进行了详细的仿真实验。 此外,我们还进行了进一步的研究,探索了其他可能的ICA应用领域,如音乐信号处理、图像处理以及金融数据分析等。通过在这些领域中的实验和应用,我们发现ICA在提取信号特征、降噪和信号分离等方面具有广泛的潜力和应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值