Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域。下面简单介绍下网络爬虫、自动化、数据分析与可视化、WEB开发、机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能吧。
1、网络爬虫
•requests-对HTTP协议进行高度封装,支持非常丰富的链接访问功能。
•PySpider-一个国人编写的强大的网络爬虫系统并带有强大的WebUI。
•bs4-beautifulsoup4库,用于解析和处理HTML和XML。
•Scrapy-很强大的爬虫框架,用于抓取网站并从其页面中提取结构化数据。可用于从数据挖掘到监控和自动化测试的各种用途
•Crawley-高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
•Portia-可视化爬取网页内容
•cola-分布式爬虫框架
•newspaper-提取新闻、文章以及内容分析
•lxml-lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式
2、自动化
•XlsxWriter-操作Excel工作表的文字,数字,公式,图表等
•win32com-有关Windows系统操作、Office(Word、Excel等)文件读写等的综合应用库
•pymysql-操作MySQL数据库
•pymongo-把数据写入MongoDB
•smtplib-发送电子邮件模块
•selenium-一个调用浏览器的driver,通过这个库可以直接调用浏览器完成某些操作,比如输入验证码