网站相关:
1、builtwith模块,第三方模块,可以用pip直接安装。作用:返回网站所用前后端框架,后台语言,服务器 操作系统,等网站信息。
2、whois模块,第三方模块,可以pip安装。作用:返回域名的所有者,email,注册地址等等whois信息。
3、urllib、urllib2、request模块,标准库。作用:与网站服务器进行访问、回馈等交互操作。
4、urlparse模块,标准库,作用:对网址字符串进行解析、分割、组装等操作。
内容提取:
1、re模块,标准库,纯C编写,效率高。作用:用正则表达式方式提取信息。
2、beautifulsoup模块,第三方模块,可以支持lxml的解析,保持了beautifulsoup的易用性,也增快了速 度,推荐使用。
作用:提取网页标签方面作用强大而简单,比正则提取网页灵活。
3、lxml模块,第三方模块,作用与beautifulsoup一致,简洁强大,支持xpath、find和css选择器等方式定 位元素,c语言写的,安装麻烦,效率高。
4、json模块,作用解析json格式的内容。
系统方面:
1、os模块,标准库
2、sys模块,标准库
未分类:
1、itertools 迭代模块
2、datetime 时间模块
3、random 随机模块
4、time 时间模块
5、pyaotogui(模拟键鼠,类似按键精灵)
6、pickle模块 持久性存储
本文介绍了一系列用于网站信息抓取及内容解析的Python模块,包括获取网站技术栈的builtwith,提取域名信息的whois,以及网页内容提取工具如re、beautifulsoup和lxml等。同时涉及了URL处理、系统操作及一些通用工具模块。
565

被折叠的 条评论
为什么被折叠?



