
爬虫
文章平均质量分 60
big__apple
一个精通数据分析处理,擅长Python全栈会深度学习和算法的资深数据分析师。因工作原因偶尔会分享一些不涉密的学习干货笔记。邮箱:mrliu0427@foxmail.com
展开
-
{“errcode“:44001,“errmsg“:“empty media data, hint: [1655962096234893527769663], from ip: 222.72.xxx.
企业微信群机器人自动发送文档原创 2022-07-18 18:24:15 · 2034 阅读 · 1 评论 -
解决Google Chrome浏览器不能打断点问题
解决在Google Chrome 浏览器上无法断点调试,这样就可以在浏览器上开始调试js了。实测无敌好用原创 2022-02-22 14:05:43 · 10405 阅读 · 0 评论 -
selenium+mitm mitm代理详细配置 跳坑必看 If you can see this, traffic is not passing through mitmproxy.
mitm详细配置&代理配置&If you can see this, traffic is not passing through mitmproxy.mitmproxy优点功能看包上和fiddler,Chrome的浏览器抓包一样强大,都能解析所有信息和响应。但是在解析和操作上,Chrome不能对包数据作任何的更改,fiddler只能按着自带的参数对包进行保存或修改,而无法高度定制,尤其是对python开发者而言。而mitm却是python编写,不需要像mob-browserproxy一原创 2021-11-26 15:06:38 · 7232 阅读 · 7 评论 -
读取shadow-root(closed)里面的内容
@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增原创 2021-08-19 19:10:41 · 12710 阅读 · 22 评论 -
浏览器user agent 列表
分享一下Google浏览器的user-agent今天想搞个爬虫,想找google的user-agent信息,发现网上居然没人分享?然后自己一个一个把浏览器里的都copy出来了。同时分享一个平时写爬虫的时候都会用到的函数(因为受网络影响很多时候是无法加载的,需要确定你的网页是存在的,同时也可可以自己修改增加失败次数)import requestsimport timeimport randomdef request_data(url): while True: try:原创 2021-08-10 14:29:19 · 939 阅读 · 2 评论 -
爬虫乱码问题的处理
爬虫乱码问题经历过学或者写爬虫的小伙伴可能都会有这样的问题,爬取的网页源码或文本内容直接乱码。下面演示下乱码的处理方法。区别就是这一行:res.encoding = 'utf-8’注意大部分网页都是utf-8编码的没错,但是也有一部分网页是gbk编码的,所以只需把utf-8改成gbk即可。其他少部分的也有另外的编码格式。除了一个个试,还有什么办法呢?看下图:在网页中查看源代码。在源代码的开头部分都会有个charset,图中是倒数第二行。只要去查看一下源码是什么格式编写的,把utf-8原创 2020-07-22 22:16:14 · 466 阅读 · 0 评论