
python爬虫
HockerF
这个作者很懒,什么都没留下…
展开
-
ubuntu python3.6 安装 pyexecjs + nodejs/pyv8
1.通过pip安装pyexecjs$ pip install PyExecJs2.安装node.js$ sudo apt-get install nodejs3.python测试import execjsdefault=execjs.get(execjs.runtime_names.Node)听说v8非常强大,于是就试着安装了下,不过这一装就是一下午,整理下思路。我的环境:Python 3.6...原创 2018-05-13 21:46:19 · 4870 阅读 · 2 评论 -
爬虫入门体验
连续做了一周的爬虫了,但是都是简单的那种,简单的总结下,后面有时间在写个工具。1.网页获取,由于网站情况不一样,有的网站有相关的反爬虫技术,要对网站情况进行分析,才能获得想要的网页信息。2.续爬,爬虫不一的能一次就吧整个网站就能爬下来,要设在分析,增加续爬功能是有必要的。3.爬取过程中遇到的问题。 1)我是使用的bs4进行xml解析的,由于每个节点属性不完全相同,当统一使用一个方法访问节点属...原创 2018-05-24 08:52:46 · 31334 阅读 · 7 评论 -
关于爬虫的浏览器模拟事件
最近做爬虫碰到一个硬茬,用了腾讯的浏览验证,貌似传参是通过腾讯服务器传过去的,js代码也是非常魔性的加一些骚扰信息,倒腾起来很是老火。于是想到了自动浏览器模拟的方法。开始时使用的是selenium+phantomJS,但是报了如下警告~/lib/python3.6/site-packages/selenium/webdriver/phantomjs/webdriver.py:49: UserW...原创 2019-03-25 15:10:09 · 531 阅读 · 0 评论 -
测试代理ip
代理ip的测试原理很简单,就是使用代理ip去访问测试网站,如果访问成功,那就可以判断该ip是有效的ip。下面是我前后折腾了一周左右的代码:# check_proxy.pyimport randomimport timeimport sysimport requestsimport threading # 线程import timeimport queueimport ti...原创 2019-05-07 20:46:43 · 1951 阅读 · 0 评论 -
'Connection aborted.', BadStatusLine('\x15\x03\x01\x00\x02\x02\x16',)
通过代理来requests网页的时候,我在日志中发现这个错误'Connection aborted.', BadStatusLine('\x15\x03\x01\x00\x02\x02\x16',)根据网上的资料,有点像是使用http协议来解析https协议,http协议报错。参考malformed HTTP response with docker private registry...原创 2019-09-16 10:44:11 · 4663 阅读 · 0 评论