通过简单的requests 、findall、pandas使用,查询到某区域的房源,并通过pandas 整理记录到excel文件,为以后进一步处理做准备。
第一部分、导入模块
from collections import defaultdict
import requests
import pandas as pd
from bs4 import BeautifulSoup
from lxml import etree
import re
global data_list,cc
data_list=pd.DataFrame()
第二 分析网页数据
选取的是长沙望城区金星北区域的二手房源

有新房广告,要剔除。新房不是二手房,影响数据分类,另外,在提取数据时,新房房源的数据格式、内容与二手房不完全一致,造成多收或漏收数据。
表头,通过F12查到
本文介绍了如何使用Python的requests和BeautifulSoup库,配合pandas,抓取长沙望城区金星北区域的二手房源信息,并整理成Excel文件。在抓取过程中,注意过滤新房广告,避免数据混乱。操作包括网页分析、分页导入和内容提取,强调了合理使用通配符和查看HTML源码的重要性。
订阅专栏 解锁全文
5375

被折叠的 条评论
为什么被折叠?



