本列表包含Python网页抓取和数据处理相关的库。
网络相关
通用
- urllib - 网络库(标准库)
- requests - 网络库
- grab - 网络库(基于pycurl)
- pycurl - 网络库 (与libcurl绑定)
- urllib3- 具有线程安全连接池、文件psot支持、高可用的Python HTTP库
- httplib2 - 网络库
- RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pythonic的库
- MechanicalSoup) - 能完成自动网站交互的Python库
- mechanize - 有状态、可编程的网页浏览库。
- socket- 底层网络接口(标准库)
- Unirest for Python - 一套支持多种语言的轻量级HTTP库
- hyper - Python HTTP/2客户端
- PySocks - SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品
异步
- treq - 基于twisted、与requests类似的API
- aiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)
【最新Python全套从入门到精通学习资源,文末免费领取!】
网络爬虫框架
全能型爬虫
- grab - 网络爬虫框架(基于pycurl/multicurl)
- scrapy - 网络爬虫框架(基于twisted)
- pyspider - 一个强力的爬虫系统
- cola - 一个分布式爬虫框架
其他
- portia - 基于Scrapy的可视化爬虫
- restkit - Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目
- demiurge - 基于PyQuery的微型爬虫框架
HTML/XML解析
通用
- lxml - 高效的HTML/XML处理库。支持XPATH,用C语言写成
- cssselect - 解析DOM树和css选择器
- pyquery - 解析DOM树和jQuery选择器
- BeautifulSoup - Python写成的低效HTML/XMl处理库
- html5lib - 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
- feedparser - 解析RSS/ATOM信息流
- MarkupSafe - Python的XML/HTML/XHTML安全转义字符串工具
- xmltodict - 让你处理XML如同处理JSON一样
- xhtml2pdf - HTML/CSS to PDF转化器
- untangle - 讲XML文档转化为Python项目以简化处理难度
- hodor - 支持lxml and cssselect的配置驱动包装工具
清理
- Bleach - 清理HTML (需求html5lib)
- sanitize - 将混乱的数据世界恢复清楚
文本处理
解析及操作文本的库
通用
- difflib - 差异化计算工具(Python标准库)
- Levenshtein - 快速计算编辑距离及字符串相似度
- fuzzywuzzy - 模糊字符串比匹配
- esmre - 正则表达式加速器.
- ftfy - 将Unicode文本自动整理减少碎片化
转换
- unidecode - Unicode转化为ASCII文本
字符编码
- uniout - 将转移字符串输出为可读形式
- chardet - Python 2/3兼容字符编码检测器
- xpinyin - 讲汉字转为拼音的库
- pangu.py - CJK及字