
python-爬虫
文章平均质量分 72
大飞同学
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3 学习札记(一)
作为一名不合格的电气汪,编程基础较为薄弱,之前仅简单接触过C和MATLAB。 最近对Python有点儿兴趣,天天胡乱的敲代码知识不成体系,效率不高也没有针对性,因此想在这里记录下自己的学习过程,不然不出一周指定全忘光!!!参考‘逆風的薔薇’的教程,《Python3爬虫》-简单网页抓取代码'''三引号可以用来表示多行注释也可以用来表示多行字符串''''''from *package impo原创 2017-08-01 10:07:42 · 405 阅读 · 0 评论 -
Python3 学习札记(二)
参考‘逆風的薔薇’的教程,《Python3爬虫》-伪装浏览器关于fiddler等抓包工具的使用,这里不再赘述。代码'''以自定义网页请求报头的形式伪装成浏览器向服务器发出请求'''import urllib.request# import ssl# ssl._create_default_https_context = ssl._create_unverified_contextdef sa原创 2017-08-01 14:24:37 · 424 阅读 · 0 评论 -
Python3 学习札记(三)
参考‘逆風的薔薇’的教程,《Python3爬虫》-爬取豆瓣首页图片代码采用伪装浏览器形式,增加图像处理和存储模块。'''re模块提供对正则表达式的支持os模块提供对系统接口层面的支持'''import urllib.request, re, ostargetPath = r'E:\Python\VSCode_Python\优快云\project\03_dbImages'def saveFil原创 2017-08-02 16:43:00 · 445 阅读 · 0 评论 -
Python3 学习札记(五)
参考‘逆風的薔薇’的教程,《Python3爬虫》-单线程爬取我的优快云全部博文代码import urllib.request, re, time, random, gzip# 定义保存文件函数def saveFile(data, i): # path = r'E:\Python\VSCode_Python\优快云\project\05_papers\papers_"+str(i+1)原创 2017-08-23 11:01:30 · 493 阅读 · 0 评论 -
Python3 学习札记(四)
参考‘逆風的薔薇’的教程,《Python3爬虫》-登录知乎抓包关于fiddler的https抓包的设置说明,可以参考fiddler设置 请求报头如下: 登录表格如下: 报头原始信息如下: 回应报文如下: 代码import urllib.request, gzip, re, http.cookiejar, urllib.parseimport原创 2017-08-03 11:08:13 · 374 阅读 · 2 评论