前言
在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:623406465
58同城网站分析
58同城的数据爬取非常简单,唯一有点难的就是字体的加密,除此之外其他的数据用xpath即可获取。
想爬取不同地方的直接访问链接即可:

数据在链接中,直接请求获取即可。


字体加密破解
既然是字体加密那么就先把字体寻找出来,寻找简单,在开发者工具中的分类找到Font,然后搜索这个链接进行查找。

已经找到这个字体了,他是在请求页面的时候返回的,然后他还是个base64的,只需要转换一下在保存就可以了。

请求链接获取字体
import requests
from lxml import etree
def get_data():
url = "https://bj.58.com/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1"
headers = {
'authority': 'bj.58.com',
'method': 'GET',
'path': '/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1',
'scheme': 'https',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9',
'cache-control': 'max-age=0',

本文主要介绍了如何使用Python爬取58同城的租房数据,重点讲解了应对字体加密的方法。首先,通过分析58同城网站,发现数据获取相对简单,难点在于字体加密。接着,详细说明了如何获取请求链接中的加密字体,并将其转换保存。虽然字体编号每次请求都会变化,但这并不影响代码执行和结果获取。最后,作者提醒读者,该文仅供学习交流,禁止商业用途。
最低0.47元/天 解锁文章
1286

被折叠的 条评论
为什么被折叠?



