Python爬取豌豆荚软件分类

Python爬取豌豆荚软件分类及下载量分析

最新推荐文章于 2024-08-24 11:00:06 发布

原创

最新推荐文章于 2024-08-24 11:00:06 发布 · 2.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了使用Python爬取豌豆荚网站上不同软件分类及其下载量的方法，包括获取所有页签的URL，分析加载更多APP信息的规律，以及爬取APP名称、一级分类、二级分类和安装人数等数据。

Python爬取豌豆荚软件分类以及下载量

一，查看网页
链接豌豆荚
红框内即为要爬取的元素

二，获取所有页签的地址：

#爬取豌豆荚

import requests
from bs4 import BeautifulSoup
import pandas as pd

#获取各个分类的url
data = requests.get('https://www.wandoujia.com/category/app')
s = BeautifulSoup(data.text, "html.parser")
divs = [li.div.find_all('a') for li in s.find_all('div')[4].find_all('ul')[0].find_all('li')]

urls_dict = {}
for i in range(len(divs)):
    #print(divs[i])
    for j in range(len(divs[i])):
        title = divs[i][j].attrs['title']
        url = divs[i][j].attrs['href']
        urls_dict[title] = url

最低0.47元/天解锁文章