
Python网络爬虫
文章平均质量分 94
Wu_Being
这个作者很懒,什么都没留下…
展开
-
【Python爬虫1】网络爬虫简介
调研目标网站背景1 检查robotstxt2 检查网站地图3 估算网站大小4 识别网站所有技术5 寻找网站所有者第一个网络爬虫1 下载网页重试下载设置用户代理user_agent2 爬取网站地图3 遍历每个网页的数据库ID4 跟踪网页链接高级功能解析robotstxt支持代理Proxy下载限速避免爬虫陷阱最终版本原创 2017-02-17 12:43:40 · 7102 阅读 · 4 评论 -
【Python爬虫6】表单交互
手工处理发送POST请求提交登录表单1分析表单内容2手工测试post请求提交表单3手工处理post请求登录的完整源代码从FF浏览器加载cookie登录网站1session文件位置2FF浏览器cookie内容3使用cookie测试加载登录4使用cookie登录源代码使用高级模块Mechanize自动化处理表单提交1用高级模块Mechanize自动化处理表单提交并支持登录后网页内容更原创 2017-02-17 13:13:36 · 7828 阅读 · 0 评论 -
【Python爬虫7】验证码处理
获得验证码图片光学字符识别验证码用API处理复杂验证码1 9kw打码平台11 提交验证码12 请求已提交验证码结果12与注册功能集成验证码(CAPTCHA)全称为全自动区分计算机和人类的公开图灵测试(Completely Automated Public Turing test to tell Computersand Humans Apart)。从其全称可以看出,验证码用于测试用户是原创 2017-02-17 13:15:06 · 19836 阅读 · 0 评论 -
【Python爬虫8】Scrapy 爬虫框架
安装Scrapy新建项目1定义模型2创建爬虫3优化设置4测试爬虫5使用shell命令提取数据6提取数据保存到文件中7中断和恢复爬虫使用Portia编写可视化爬虫1安装2标注3优化爬虫4检查结果使用Scrapely实现自动化提取1.安装Scrapy用pip命令安装Scrapy:pip install Scrapywu_being@ubuntukylin64:~/GitHu原创 2017-02-17 13:16:19 · 9759 阅读 · 0 评论 -
【Python爬虫5】提取JS动态网页数据
动态网页示例对加载内容进行逆向工程1通过开发者工具的逆向工程2通过墨盒测试的逆向工程21搜索条件为空时22用号匹配时22用号匹配时渲染动态网页1使用WebKit渲染引擎2使用Selenium自定义渲染现在大部分的主流网站都用JavaScript动态显示网页内容,这样使得我们之前提取技术无法正常运行。本篇将介绍两种提取基于JS动态网页的数据。JavaScript逆向工程渲染Ja原创 2017-02-17 13:12:20 · 37219 阅读 · 0 评论 -
【Python爬虫4】并发并行下载
1一百万个网站1用普通方法解析Alexa列表2复用爬虫代码解析Alexa列表2串行爬虫3并发并行爬虫0并发并行工作原理1多线程爬虫2多进程爬虫4性能对比这篇将介绍使用多线程和多进程这两种方式并发并行下载网页,并将它们与串行下载的性能进行比较。1一百万个网站亚马逊子公司Alexa提供了最受欢迎的100万个网站列表(http://www.alexa.com/topsites ),我们也可原创 2017-02-17 13:08:36 · 7066 阅读 · 0 评论 -
【Python爬虫2】网页数据提取
提取数据方法1 正则表达式2 流行的BeautifulSoup模块3 强大的Lxml模块性能对比为链接爬虫添加抓取回调1 回调函数一2 回调函数二3 复用上章的链接爬虫代码 我们让这个爬虫比每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为提取(scraping)。原创 2017-02-17 13:04:11 · 9173 阅读 · 0 评论 -
【Python爬虫9】Python网络爬虫实例实战
爬Google搜索引擎爬Facebook和Linkein1自动化登录Facebook2提取Facebook的API数据3自动化登录Linkedin爬在线商店Gap爬宝马官网爬取Google真实的搜索表单爬取依赖JavaScript的网站Facebook爬取典型在线商店Gap爬取拥有地图接口的宝马官网1.爬Google搜索引擎# -*- coding: utf-8 -*-impor原创 2017-02-17 13:17:35 · 12238 阅读 · 3 评论 -
【Python爬虫3】在下载的本地缓存做爬虫
1为链接爬虫添加缓存支持2磁盘缓存1用磁盘缓存的实现2缓存测试3节省磁盘空间4清理过期数据5用磁盘缓存的缺点3数据库缓存1NoSQL是什么2安装MongoDB3MongoDB概述4MongoDB缓存实现5压缩存储6缓存测试7MongoDB缓存完整代码上篇文章,我们学习了如何提取网页中的数据,以及将提取结果存到表格中。如果我们还想提取另一字段,则需要重新再下载整个网页,这原创 2017-02-17 13:06:12 · 3361 阅读 · 0 评论