Python爬取58同城租房数据，完美解决字体加密

最新推荐文章于 2024-12-15 23:09:34 发布

原创

最新推荐文章于 2024-12-15 23:09:34 发布 · 956 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #Python编程 #Python爬虫 #网络爬虫 #编程语言

本文主要介绍了如何使用Python爬取58同城的租房数据，重点讲解了应对字体加密的方法。首先，通过分析58同城网站，发现数据获取相对简单，难点在于字体加密。接着，详细说明了如何获取请求链接中的加密字体，并将其转换保存。虽然字体编号每次请求都会变化，但这并不影响代码执行和结果获取。最后，作者提醒读者，该文仅供学习交流，禁止商业用途。

前言

在这里我就不再一一介绍每个步骤的具体操作了，因为在爬取老版今日头条数据的时候都已经讲的非常清楚了，所以在这里我只会在重点上讲述这个是这么实现的，如果想要看具体步骤请先去看我今日头条的文章内容，里面有非常详细的介绍以及是怎么找到加密js代码和api接口。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤
QQ群：623406465

58同城网站分析

58同城的数据爬取非常简单，唯一有点难的就是字体的加密，除此之外其他的数据用xpath即可获取。

想爬取不同地方的直接访问链接即可：

在这里插入图片描述
数据在链接中，直接请求获取即可。

在这里插入图片描述

字体加密破解

既然是字体加密那么就先把字体寻找出来，寻找简单，在开发者工具中的分类找到Font，然后搜索这个链接进行查找。

在这里插入图片描述
已经找到这个字体了，他是在请求页面的时候返回的，然后他还是个base64的，只需要转换一下在保存就可以了。

在这里插入图片描述

请求链接获取字体

import requests
from lxml import etree

def get_data():
    url = "https://bj.58.com/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1"
    headers = {
        'authority': 'bj.58.com',
        'method': 'GET',
        'path': '/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1',
        'scheme': 'https',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'cache-control': 'max-age=0',

最低0.47元/天解锁文章