
爬虫
焦志坤
一名程序猿的自我救赎之路
展开
-
fiddler手机抓包准备工作
fiddler手机抓包准备工作1、配置fiddler(完成之后记得重启)2、确保电脑跟手机处于同一局域网解释:电脑端可以ping通手机那么问题来了:怎么操作呢方法:你的笔记本跟手机直接连接在同一个wifi下面就好啦(so easy)3、手机端下载fiddler证书手机访问“电脑ip地址”+刚刚设置的端口号(8889)并下载证书证书下载完成之后点击完成并为证书命名4、成功前的最后一步,手机配置代理修改网络手动设置ip5、大功告成(注意一点fiddler打开的原创 2020-05-28 15:48:04 · 509 阅读 · 0 评论 -
b站视频爬取(未封装)
b站视频爬取(未封装)1、随便选取一个视频进行分析经过分析得出视频有两部分(一个音频一个视频)2、代码(将对应的MP3、MP4保存起来)from urllib import request# 为请求添加请求头opener = request.build_opener()opener.addheaders = [ ('Referer','https://www.bilibili.com/bangumi/play/ep199612?from=search&seid=17094原创 2020-05-23 08:10:53 · 1536 阅读 · 1 评论 -
python爬取百度使用kw关键字爬取时出现,百度安全验证,解决方法
python爬取百度使用kw关键字爬取时出现,百度安全验证,解决方法之前爬取百度用kw时的代码(没有任何问题)import requestsurl = 'http://www.baidu.com/s'headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.16 Safari/537.36",}原创 2020-05-14 17:47:28 · 17653 阅读 · 32 评论 -
Unable to start phantomjs with ghostdriver: [WinError 2] 系统找不到指定的文件
无界面浏览PhantomJS出现错误解决办法首先找到phantomjs.exe将其复制到python安装位置中的Scripts中原创 2020-05-05 09:12:46 · 1564 阅读 · 1 评论 -
Session 和 Cookie 的联系与区别
Session 和 Cookie 的联系Session 对 Cookie 的依赖:Cookie 采用客户端存储,Session 采用的服务 端存储的机制。Session 是针对每个用户(浏览器端)的,Session 值保存在服 务器上,通过 SessionId 来区分哪个用户的 Session。因此 SessionId 需要被 绑定在浏览器端。 SessionId 通常会默认通过 Cookie ...原创 2019-10-10 08:31:53 · 153 阅读 · 0 评论 -
request请求出现:requests.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed
request请求出现:requests.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed解决办法在请求中添加一个参数verify=False原创 2019-09-26 15:13:45 · 2205 阅读 · 0 评论 -
基于python多线程爬取网易云音乐歌手名(超详细注释)
基于python网易云音乐歌手名爬取import osimport timeimport requestsimport threadingfrom lxml import etreefrom queue import Queue# 创建获取所有类型路由的线程类class GetMain(threading.Thread): # 初始化函数 def __init__(...原创 2019-09-24 20:54:05 · 1014 阅读 · 0 评论 -
SyntaxError: Non-UTF-8 code starting with '\xbd' in file
SyntaxError: Non-UTF-8 code starting with ‘\xbd’ in file在代码头部添加:# encoding=gbk原创 2019-09-24 08:29:56 · 6093 阅读 · 1 评论 -
xpath与re的匹配速度对比
xpath与re的匹配速度对比因为xpath在匹配时需要将字符转进行格式转换所以在运行速度方面会有所前却原创 2019-09-06 11:02:23 · 1319 阅读 · 1 评论 -
xpath获取当前节点的兄弟节点
xpath获取当前节点的兄弟节点<div> <a id="1" href="www.baidu.com">1</a> <p>我是p标签</p> <a id="2" href="www.baidu.com">2</a> <a id="3" href="www.baidu.com...原创 2019-09-03 20:12:46 · 5777 阅读 · 0 评论 -
window中设置定时任务执行python程序
window中设置定时任务执行python程序1、在cmd中输入compmgmt.msc打开计算机管理2、在系统工具中找到计划任务程序并点击3、创建基本任务4、点击下一步5、点击下一步67、8、点击完成即可(如需要更详细的配置则需要勾选“下面的小方框”然后再进行操作)...原创 2019-08-30 16:20:06 · 1040 阅读 · 0 评论 -
网易云音乐外链格式
网易云音乐外链格式http://music.163.com/song/media/outer/url?id=(歌曲的id).mp3原创 2019-08-26 14:42:23 · 948 阅读 · 0 评论 -
json中dumps、dump、loads、load详解
json中dumps、dump、loads、load详解dumps:将字典转换成json字符串import jsona = { "a": "1111", "c": "3333", "b": "2222", "d": "4444" }print(json.dumps(a))输出:{"d": "4444", "b...原创 2019-08-20 12:58:21 · 627 阅读 · 0 评论 -
正则中的search和match
search与match的区别都是匹配一次制定的字符,re.search是从字符内部开始匹配,而match是从头部开始匹配,也就是说,如果开头没有,search会继续向后匹配,match会返回none...原创 2019-08-05 21:21:06 · 739 阅读 · 0 评论 -
正则中的贪婪匹配,与非贪婪匹配
贪婪匹配尽可能多的匹配字符示例import rehtml = '''<img src='1.jpg'><img src='2.jpg'><img src='3.jpg'>'''result = re.findall(r"<img src='(.*)'",html)print(result)输出结果["1.jpg'><...原创 2019-08-05 21:13:44 · 158 阅读 · 0 评论 -
http常用状态码大全
http常用状态码200:请求成功301:永久重定向302:临时重定向400:请求的url在服务器上找不到403:服务器拒绝访问,权限不够500:服务器内部错误,服务器内部bug...原创 2019-07-31 22:31:00 · 143 阅读 · 0 评论