156个Python网络爬虫资源,妈妈再也不用担心你找不到资源!

在这里插入图片描述
本列表包含Python网页抓取和数据处理相关的库。


网络相关

通用

  • urllib - 网络库(标准库)
  • requests - 网络库
  • grab - 网络库(基于pycurl)
  • pycurl - 网络库 (与libcurl绑定)
  • urllib3- 具有线程安全连接池、文件psot支持、高可用的Python HTTP库
  • httplib2 - 网络库
  • RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pythonic的库
  • MechanicalSoup) - 能完成自动网站交互的Python库
  • mechanize - 有状态、可编程的网页浏览库。
  • socket- 底层网络接口(标准库)
  • Unirest for Python - 一套支持多种语言的轻量级HTTP库
  • hyper - Python HTTP/2客户端
  • PySocks - SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品

异步

  • treq - 基于twisted、与requests类似的API
  • aiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)

【最新Python全套从入门到精通学习资源,文末免费领取!】

网络爬虫框架

全能型爬虫

  • grab - 网络爬虫框架(基于pycurl/multicurl)
  • scrapy - 网络爬虫框架(基于twisted)
  • pyspider - 一个强力的爬虫系统
  • cola - 一个分布式爬虫框架

其他

  • portia - 基于Scrapy的可视化爬虫
  • restkit - Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目
  • demiurge - 基于PyQuery的微型爬虫框架

HTML/XML解析

通用

  • lxml - 高效的HTML/XML处理库。支持XPATH,用C语言写成
  • cssselect - 解析DOM树和css选择器
  • pyquery - 解析DOM树和jQuery选择器
  • BeautifulSoup - Python写成的低效HTML/XMl处理库
  • html5lib - 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
  • feedparser - 解析RSS/ATOM信息流
  • MarkupSafe - Python的XML/HTML/XHTML安全转义字符串工具
  • xmltodict - 让你处理XML如同处理JSON一样
  • xhtml2pdf - HTML/CSS to PDF转化器
  • untangle - 讲XML文档转化为Python项目以简化处理难度
  • hodor - 支持lxml and cssselect的配置驱动包装工具

清理

  • Bleach - 清理HTML (需求html5lib)
  • sanitize - 将混乱的数据世界恢复清楚

文本处理

解析及操作文本的库

通用

  • difflib - 差异化计算工具(Python标准库)
  • Levenshtein - 快速计算编辑距离及字符串相似度
  • fuzzywuzzy - 模糊字符串比匹配
  • esmre - 正则表达式加速器.
  • ftfy - 将Unicode文本自动整理减少碎片化

转换

  • unidecode - Unicode转化为ASCII文本

字符编码

  • uniout - 将转移字符串输出为可读形式
  • chardet - Python 2/3兼容字符编码检测器
  • xpinyin - 讲汉字转为拼音的库
  • pangu.py - CJK及字
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值