针对现在大部分的网站都是使用js加密,js加载的,并不能直接抓取出来,这时候就不得不适用一些三方类库来执行js语句
执行JS的类库:execjs,PyV8,selenium,node
这里主要讲一下execjs,一个比较好用且容易上手的类库(支持py2,与py3),支持 JS runtime。
官网:https://pypi.org/project/PyExecJS/
(一)安装:
pip install PyExecJS
or
easy_install PyExecJS
(二)运行时环境
execjs会自动使用当前电脑上的运行时环境(建议用nodejs,与Phantomjs)
>>> execjs.get().name # this value is depends on your environment.
>>> os.environ["EXECJS_RUNTIME"] = "Node"
>>> execjs.get().name
'Node.js (V8)'
通过运行时环境运行js
>>> default = execjs.get() # the automatically picked runtime
>>> default.eval("1 + 2")
3
>>> import execjs.runtime_names
>>> jscript = execjs.get(execjs.runtime_names.JScript)
>>> jscript.eval("1 + 2")
3
>>> import ex