
Python 爬虫之旅
文章平均质量分 70
Python 爬虫之旅
seeyoumeet
不要混时间,小心时间混了你。
展开
-
Python爬虫(四) —— 将爬取到的数据进行存储
文章目录文本存储文件打开模式以TXT文本形式存储以JSON数据形式存储读取json数据输出json数据以CSV文本格式存储写入CSV数据读取CSV数据 用解析器解析出数据之后,接下来就是存储数据了。保存的形式有很多,最简单的形式是直接保存为文本文件,如TXT、JSON、csv等。另外,还可以将这些数据保存到数据库中。文本存储文件打开模式python中所有open()打开一个文件,文件的打...原创 2021-12-24 17:58:30 · 9866 阅读 · 0 评论 -
使用 Python 爬取每日一图
from urllib import requestimport jsonimport datetime# 可选国家: en-US, zh-CN, ja-JP, en-AU, en-UK, de-DE, en-NZmarket = 'zh-CN'resolution = '1920x1080'# idx表示当前离这天的天数 ,0表示当天,1表示抓取前一天的response = request.urlopen("http://www.bing.com/HPImageArchive.aspx?原创 2021-08-22 12:46:00 · 222 阅读 · 0 评论 -
Python爬虫之验证码的识别
文章目录图形验证码的识别将图片转换为灰度图将图片二值化极验滑动验证码的识别点触验证码的识别 目前,许多网站采取各种各样的措施来反爬虫,其中一个措施便是使用验证码。随着技术的发展,验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码,后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码,这使得识别愈发困难。 现在这种交互式验证码越来越多,如极验滑动验证码需要滑动拼合滑块才可以完成验证,点触验证码需要完全点击正确结果才可以完成验证,另外还有滑动宫格验证码、计算题验证码等。 图原创 2021-12-23 22:43:25 · 3083 阅读 · 0 评论 -
将爬取到的数据进行存储
文章目录文本存储文件打开模式以TXT文本形式存储以JSON数据形式存储读取json数据输出json数据以CSV文本格式存储写入CSV数据读取CSV数据数据库存储 用解析器解析出数据之后,接下来就是存储数据了。保存的形式有很多,最简单的形式是直接保存为文本文件,如TXT、JSON、csv等。另外,还可以将这些数据保存到数据库中。文本存储文件打开模式python中所有open()打开一个文件,文件的打开有很多模式:r:以只读方式打开文件,文件的指针将会放在文件的开头,这是默认模式。rb:以二进制原创 2021-12-23 22:39:01 · 2851 阅读 · 0 评论 -
模拟Ajax请求爬取网站动态信息
有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果中并没有。这是因为requests获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript 和特定算法计算后生成的。 对于第一种情况,数据加载是一种异步加载方式,原始的页面最初不会包含某些数据,原原创 2021-12-23 22:40:56 · 965 阅读 · 0 评论 -
Python爬虫基础(二)—— 使用解析库
文章目录使用XPathXPath常用规则例子引入获取所有节点子节点父节点属性匹配文本获取属性获取含有多个值的属性的匹配根据多条属性来获取节点根据出现的次序筛选同样符合条件的节点集节点轴选择使用Beautiful Soup基本用法节点选择器选择元素提取相关信息(1). 获取节点名称(2). 获取属性值(3). 获取节点内内容嵌套选择关联选择(1). 子节点和子孙节点(2). 父节点和祖先节点(3)....原创 2019-03-17 14:32:57 · 1411 阅读 · 0 评论 -
Python爬虫基础(一) —— 基本爬虫库的使用
文章目录使用urllib库使用request模块发送请求1.使用urlopen()urlopen - data参数urlopen - timeout参数2. Request()3.高级用法验证代理Cookies使用error模块处理异常1. URLError2. HTTPError使用parse模块解析链接1. urlparse()2. urlunparse()3. urlsplit()4. ur...原创 2019-03-17 14:28:56 · 3407 阅读 · 0 评论 -
Python爬虫基础(三) —— 爬取动态渲染页面
文章目录使用Selenium库例子引入声明游览器对象访问页面查找节点单个节点多个节点节点交互动作链模拟执行javascript获取节点信息获取属性获取文本值获取id,位置,标签名和大小切换Frame延时等待隐式等待显示等待前进和后退Cookies选项卡管理 虽然有些通过ajax动态渲染出来的页面通过对请求链接的分析我们仍然可以使用urllib或requests库来进行数据爬取,但javascr...原创 2019-03-17 14:36:02 · 6176 阅读 · 0 评论