1 资料
- 《Python网络爬虫从入门到实践》唐松,陈志铨。主要面向windows平台下的python3。
2 笔记
2-1 准备
本章实践项目的目的是获取Airbnb深圳前20页的短租房源。作为Airbnb的超赞房东,笔者特别喜欢Airbnb的理念,同时需要监控和了解竞争对手的房屋名称和价格,这样才能让自己的房子有竞争力。
本项目需要获取前20页短租房源的名称、价格、评价数量、房屋类型、床数量和房客数量。网页地址为:https://zh.airbnb.com/s/Shenzhen–China?page=1
2-1-1. 网址
之前的网址内容改变了,实际爬取的网址第一页为https://www.airbnb.cn/s/Shenzhen–China/homes?query=Shenzhen,%20China&screen_size=large&refinement_paths%5B%5D=/homes&click_referer=t:SEE_ALL%7Csid:0c7b844d-c81d-4fea-ab73-579bccc8c068%7Cst:MAGAZINE_HOMES&title_type=MAGAZINE_HOMES&last_search_session_id=0c7b844d-c81d-4fea-ab73-579bccc8c068

第二页为https://www.airbnb.cn/s/Shenzhen–China/homes?refinement_paths%5B%5D=%2Fhomes¤t_tab_id=home_tab&selected_tab_id=home_tab&screen_size=large&click_referer=t%3ASEE_ALL%7Csid%3A0c7b844d-c81d-4fea-ab73-579bccc8c068%7Cst%3AMAGAZINE_HOMES&title_type=MAGAZINE_HOMES&hide_dates_and_guests_filters=false&place_id=ChIJkVLh0Aj0AzQRyYCStw1V7v0&s_tag=PG0WiDLi§ion_offset=4&items_offset=18&last_search_session_id=70170a63-acec-4467-9e22-ad3fdd0271a5
第三页为https://www.airbnb.cn/s/Shenzhen–China/homes?refinement_paths%5B%5D=%2Fhomes¤t_tab_id=home_tab&selected_tab_id=home_tab&screen_size=large&click_referer=t%3ASEE_ALL%7Csid%3A0c7b844d-c81d-4fea-ab73-579bccc8c068%7Cst%3AMAGAZINE_HOMES&title_type=MAGAZINE_HOMES&hide_dates_and_guests_filters=false&s_tag=PG0WiDLi§ion_offset=4&items_offset=36&place_id=ChIJkVLh0Aj0AzQRyYCStw1V7v0&last_search_session_id=36cce69d-bb21-4e65-93b7-4a6e3f3f7fb4
实验证明,以上一长串内容只要取第一页以后任意一页修改items_offset的值为(n-1)*18就可以跳转到第n页。后面的last_search_session_id虽然一直在变,但可以用同一个数值访问所有页面。
另外,后面一长串&相连的内容可以随机调换顺序,却不影响访问。
2-2-2 文本位置
通过方法1(通过浏览器审查元素解析真实网页地址)需要的似乎是这些网址
<script defer="" crossorigin="anonymous" src="https://z1.muscache.cn/airbnb/static/packages/AsyncChinaSignupModal~AsyncSignupModal~AsyncSimpleSignupModal~ChinaReservationCenterDetailPageContai~96144fd8-94878cf1.js" type="application/javascript"></script>
<script defer="" crossorigin="anonymous" src="https://z1.muscache.cn/airbnb/static/packages/AsyncLoginModal~AsyncSignupModal~ChinaReservationCenterDetailPageContainer~EmbedModal~MarketplacePDP~cb57683b-caa2c37d.js" type="application/javascript"></script>
<script defer="" crossorigin="anonymous" src="https://z1.muscache.cn/airbnb/static/packages/ChinaReservationCenterDetailPageContainer~HomesCheckoutFlowApp_WhosComingContainer_async~HomesChecko~237e18f8-a2aae0a3.js" type="application/javascript"></script>
<script defer="" crossorigin="anonymous" src="https://z1.muscache.cn/airbnb/static/packages/ChinaBrowsingHistoryPage~ChinaReservationCenterDetailPageContainer~ChinaReservationCenterListPageCon~86d14141-cfea1498.js" type="application/javascript"></script>
<script defer="" crossorigin

本文是作者学习网络爬虫的笔记,重点在于动态网页的抓取。目标是抓取Airbnb深圳前20页的短租房源信息,包括名称、价格、评价数量、房屋类型等。通过分析网址规律,使用Selenium库进行动态网页的爬取,以应对网页内容的实时变化。
最低0.47元/天 解锁文章
285

被折叠的 条评论
为什么被折叠?



