Python爬虫基础——爬取pypi所有库

最新推荐文章于 2024-10-30 08:15:00 发布

原创最新推荐文章于 2024-10-30 08:15:00 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

python 同时被 2 个专栏收录

7 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

本文介绍了如何使用Python的requests、BeautifulSoup和tqdm库从中国清华大学的pypi镜像抓取所有模块名，并将结果写入文件，特别提到了BeautifulSoup解析效率的问题。

1、源介绍

我们使用的是来自中国的清华大学pypi镜像https://pypi.tuna.tsinghua.edu.cn/simple

打开一看，就是一个简单的HTML页面，里面有无数个链接。链接就是模块名。

Requests

import requests

a = requests.get("https://pypi.tuna.tsinghua.edu.cn/simple").text

可以打印a试一下（在PyCharm打不全，就不截图了）

BeautifulSoup解析

import bs4
b = bs4.BeautifulSoup(a, "lxml")
s = b.find_all("a")

记得安装lxml模块与bs4模块！

写入文件与tqdm

import tqdm
with open("pypi.txt", "w") as f:
    for i in tqdm.tqdm(range(len(s)), total=len(s), desc="进度"):
        f.write(str(s[i].text )+ "\n")

总程序

import requests
import bs4
import tqdm
a = requests.get("https://pypi.tuna.tsinghua.edu.cn/simple").text
b = bs4.BeautifulSoup(a, "lxml")
s = b.find_all("a")
with open("pypi.txt", "w") as f:
   for i in tqdm.tqdm(range(len(s)), total=len(s), desc="进度"):
       f.write(str(s[i].text )+ "\n")

进度: 100%|██████████| 273143/273143 [00:00<00:00, 353842.41it/s]

PS:运行较慢，主要是因为bs4效率不高（即使使用了lxml这个C语言库！）·

Gist地址

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

谢哲源

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

spack_python_package_parser:爬取PyPI索引API的简单脚本，用于通过`spack`安装的Python软件包的下载信息

05-04

这是什么用于抓取PyPI索引API的简单脚本，以获取Python软件包的下载信息打包tar.gz url md5校验和对象打包内容的一行摘要套餐首页版本信息用法示例 grep单个软件包的下载信息 $ ./crawl_pypi_index.py ipython@4.0.0 < PATH> Detected single package name is supplied. Querying http://pypi.python.org/pypi/ipython/4.0.0/json Package download link is https://pypi.python.org/packages/source/i/ipython/ipython-4.0.0.tar.gz md5 checksum is: c2fecbcf1c0fbdc826

【Python项目】——爬取王者荣耀皮肤

weixin_51658186的博客

03-09

2万+

原作者：尚学堂李老师学习视频来源：bilibili——王者荣耀皮肤爬取注：仅供自学者学习交流使用，侵权联系必删。

参与评论您还未登录，请先登录后发表或查看评论

爬取清华pypi源

点点滴滴的博客

08-13

933

爬虫下载清华pypi源下载目录爬取程序下载目录文章代码仅供学术讨论。 import requests import urllib.request # url request import os # dirs import time from bs4 import BeautifulSoup # 用于解析网页 import requests import bs4 import tqdm from retry import retry import datetime import sys @re

海量代码随便用！几招教你解锁PyPI代码库，（附爬虫代码）

weixin_48272043的博客

03-15

242

#你是否经历过这样的场景打开编辑器，苦思冥想20分钟只码出了一行“hello world” 又或者，好不容易写了个脚本结果10行代码15个Bug…… #不慌，这里就有一份指南！在Python的世界里有个巨大的宝库PyPI 里面有27万开放的模块供大家使用很多让你苦思冥想的代码或许其他大神早就解决了并提供了简单好用的模块跟着小编，一起解锁这个宝库吧文末附送Python代码资源轻松几步，解锁你的代码技能 ...

python自定义库打包到PYPI+爬虫工具类分享

Memory_and_Dream的博客

09-01

531

官方教程 python自定义库打包，按教程一步步做就可以了，不过我这里希望打包的是一个单文件，所以需要修改下setup.py 里的py_modules # -*- coding: utf-8 -*- # @Time : 2020/8/31 18:19 # @Author : meng_zhihao # @Email : 312141830@qq.com # @File : setup.py import setuptools with open("README.md", "r") as

【python】爬虫基础——JSON、requests、BeautifulSoup、lxml、爬取静态网页

urge的博客

09-18

2616

JSON是⼀种存储和交换数据的语法JSON仅仅是⽂本，它能够轻松地在服务器浏览器之间传输JSON的数据格式其实就是python里面的字典格式。

Python爬虫实战(基础篇)—24—爬取水利建设市场监管平台—从业单位信息公开

最新发布

weixin_42636075的博客

10-30

1748

Python爬虫实战(基础篇)—24—爬取水利建设市场监管平台—从业单位信息公开

Python爬虫——异步爬虫，两百四十多万字，六百章的小说20秒爬完？

霖hero

09-04

1460

大家好！我是霖hero。相信很多人喜欢在空闲的时间里看小说，甚至有小部分人为了追小说而熬夜看，那么问题来了，喜欢看小说的小伙伴在评论区告诉我们为什么喜欢看小说，今天我们手把手教你使用异步协程20秒爬完两百四十多万字，六百章的小说，让你一次看个够。在爬取之前我们先来简单了解一下什么是同步，什么是异步协程？同步与异步同步异步请求库 requests库 asyncio模块 aiohttp库 httpx请求库 httpx请求库——同步请求 httpx请求库——同步请求高级用法

Python 爬虫基础教程——BeautifulSoup抓取入门（1）

th1522856954的博客

02-24

750

大家好，上篇推文介绍了爬虫方面需要注意的地方、使用vscode开发环境的时候会遇到的问题以及使用正则表达式的方式爬取页面信息，本篇内容主要是介绍BeautifulSoup模块的使用教程。一、BeautifulSoup介紹引用官方的解释： Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 简单来说Beautiful Soup是python的一个库，是一个可以从网页抓取数据的利器。官方..

实战|手把手教你用Python爬虫(附详细源码)

qq_46094651的博客

05-25

2125

Python学习-简单爬虫及文件保存

jiandande3218的专栏

08-31

1613

百度数据抓取及保存文件： import requests # 获取网站信息 response = requests.get("http://www.baidu.com"); #生成一个response对象 response.encoding = response.apparent_encoding; #设置编码格式 #response.encoding = "utf-8"; #设置接收编码格式 print("状态码:" + str(response.status_code)); #打印状态码 #pri

ReadTimeoutError: HTTPSConnectionPool(host='pypi.python.org', port=443): Read timed out.

专注于全栈开发领域

02-03

4787

错误应该是安装包超时解决 pip --default-timeout=100 install django

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn pym

热门推荐

silence_fire的博客

06-07

2万+

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

pthon网络爬虫爬取top250电影相关信息，步骤清晰，适合初学者

weixin_46395175的博客

09-20

465

python网页爬虫爬取电影top250，其中用到了re、beautifulsoup、xlwt、sqlite等库

python查看pypi第三方库可安装的全部版本

呆萌的代Ma

01-04

960

运行下面的代码即可： import json from urllib import request from pkg_resources import parse_version import ssl ssl._create_default_https_context = ssl._create_unverified_context def versions(pkg_name): url = f'https://pypi.python.org/pypi/{pkg_name}/json'

花了半个月，终于把Python库全部整理出来了，非常全面

cxyj666的博客

03-05

2000

转载原文出处：https://www.jianshu.com/p/d25a9169fe86 库名称简介 Chardet，字符编码探测器，可以自动检测文本、网页、xml的编码。 colorama，主要用来给文本添加各种颜色，并且非常简单易用。 Prettytable，主要用于在终端或浏览器端构建格式化的输出。 difflib，[Python]标准库，计算文本差异Levenshtein，快速计算字符...

Python爬虫：爬取资源站点列表

weixin_34342578的博客

05-26

337

发现某站点文章很多，爬取所有文章名和链接，并保存在txt文档中，方便后续查看#!/usr/bin/python #-*-coding:UTF-8-*- importurllib,urllib2,re,requests importsys reload(sys) sys.setdefaultencoding('utf-8') domain=['http://...

pypi私有库_介绍7种基本PyPI库的指南以及如何使用它们

cumj63710的博客

07-11

409

pypi私有库为什么Python如此受到程序员的喜爱？它是开源的。它与多种操作系统兼容。对于初学者来说是可读的。它足够强大，可用于开发复杂的应用程序。我们将Python专家Moshe Zadka的PyPI库教程集合在一起，提供了可下载的指南。了解如何解决常见的Python问题，例如如何简化C扩展的编写，一致地格式化代码，回溯地向库添加方法，自动执行测试等。本指南涵盖的Py...

Python爬虫实战：解析51cto博客信息获取流程

教程涵盖了Python爬虫的基础知识，包括环境配置、所需库的安装以及具体爬取过程的实现代码。" 在互联网数据丰富的今天，Python爬虫成为获取网络信息的重要工具。本教程以爬取51cto博客为例，旨在帮助学习者掌握...