
python网络爬虫
文章平均质量分 81
一颗橡树
靡不有初,鲜克有终
展开
-
有关Python3 字符编码问题的简单小结
转载请标明出处,谢谢! 之前一直没怎么弄清python3是如何编码的,各种编码方式之间又是如何转化的,看了很多文章,现在自己做一个小结。1、大体的字符编码方式演变过程: ASCLL -> gbh2312 ->gbk -> Unicode 上面列出的4种编码方式,我就不详细解释了,想要了解的朋友请自行搜索。 2、python3中的编码方式: python3的默认...原创 2018-09-09 14:48:48 · 316 阅读 · 0 评论 -
Python 爬虫学习入门阶段小结(心得+python爬虫遇到的所有错误集合)
学习历程: bilibili嵩天教授网课 + 个人练习 — 《python网络爬虫从入门到实践》,前后一共1个半月左右中间出现的无数次问题找度娘解决了,自学确实比较艰辛,因为一个问题经常想一两天都解决不了。 再来谈谈我看过的这本书:《python网络爬虫从入门到实践》。 这本书说实话写的很浅,虽然内容比较适合新手,但是内容都是浅尝辄止,想要速成的同学可以看。但是想要学习的...原创 2018-09-09 20:45:27 · 2052 阅读 · 0 评论 -
在使用python的selenium库 抓取动态网页时,浏览器内容出现空白的解决方式
转载请标明出处,谢谢~。 我使用的版本: 1、python 3.7 (IDE 用的 pycharm) 2、selenium(通过pip install 安装的最新版本:3.14 时间:2018.9.6 ) 3、 geckodriver.exe 21.0 4、firefox 浏览器最新版本(62.0 时间:2018.9.6 )问题: 向Path添...原创 2018-09-06 23:32:22 · 6239 阅读 · 0 评论 -
python 编写爬虫常用包下载地址、工具网站以及相关安装问题集合(持续更新)
转载请标明出处,谢谢。以下链接出现问题请私戳或留言,我尽快解决。免费代理ip网站: http://www.xicidaili.com/nn/geckodriver 下载地址: https://github.com/mozilla/geckodriver/releases 由于防火墙原因,可能不能直接访问的,请参考我的另外一篇博客: https://blog.c...原创 2018-09-07 11:21:15 · 2360 阅读 · 0 评论 -
无聊日常——对QQ邮箱盗号邮件的垃圾账号填充
本篇关键字:QQ盗号,域名分析,目录扫描,垃圾信息倾倒最近收到一封诡异的邮件,如下图:好奇的我扫码进去看到了qqmail的登录界面,直觉告诉我这是个假粉丝!(重庆腔)咳…是假的网站,进一步发现它的地址为:http://dhdjfekljjf.jcikiybk.lsdhdjeicgj.com.cn/mail1/嗯…下面就开始搞事了。(咦?自动变绿?)首先1、猜它的所有目录首先解析域...原创 2018-12-29 13:00:19 · 4440 阅读 · 3 评论 -
无聊日常--python+selenium+chromedriver 实现QQ空间评论自动删除
我最初有写这个项目的想法是在18年11月底(好像是),当时我们学校的表白墙遭到了麦片的账号骚扰——不断在评论区刷麦片评论,利用表白墙的流量“拉客”。“路见不平一声吼啊~”(破音)但是当时学习任务紧没有太多时间,因此搁置了很久。最初是想用splash实现,但是奈何当时我对splash功能的掌握不足(虽然现在也没好多少),因此程序一直没有按预期运行,拖着拖着就到了现在。当然,写这篇博客也是写出来一...原创 2019-03-08 23:15:42 · 1015 阅读 · 1 评论