
爬虫
石头里蹦出的猴子
石千浪
展开
-
XPATH如何选择不包含某一个属性的节点或者包含某个内容?
如图,当我选择所有li标签,其中有4条是不包含数据的,所以我们希望在选择的时候排除掉这四个li只需在写xpath的时候排除掉class为line的内容即可,这里可以用到not(),例如排除一个属性的节点可以使用//ul/li[not(@class='line')]来写,排除一个或者两个属性可以使用//ul/li[not(@class or @id)]来选择。如图...原创 2021-03-09 15:41:22 · 6224 阅读 · 2 评论 -
爬虫响应页面出现两次521案例
本案例仅供学习使用分享案例:首次请求,响应521,且返回一段js,通过python执行,得到了一个cookie值,即:__jsl_clearance_s=1614931214.049|-1|EmQmxF7mXWLt6cHyUaqS4qFubB8%3D<script>document.cookie=('_')+('_')+('j')+('s')+('l')+('_')+('c')+('l')+('e')+('a')+('r')+('a')+('n')+('c')+('e')+('_'原创 2021-03-06 15:45:27 · 4075 阅读 · 3 评论 -
python execjs 执行js 出现 gbk报错的问题 ‘gbk‘ codec can‘t encode character ‘\xe5‘ in position 13665:
报错代码:'gbk' codec can't encode character '\xe5' in position 13665: illegal multibyte sequence解决方法:进入python的安装目录,找到lib 文件夹,找到subprocess.py,将参数encoding=“None”修改为encoding=“utf-8”即可。python\lib\subprocess.py def __init__(self, args, bufsize=-1...原创 2021-03-06 15:04:07 · 1863 阅读 · 3 评论 -
python requests session手动添加cookies
python requests session手动添加cookiesimport requestss = requests.session()#手动添加键为__jsl_clearance_s的cookierequests.utils.add_dict_to_cookiejar(s.cookies,{'__jsl_clearance_s':jsl_clearance_s})#带着刚才添加好的cookie去请求response = s.get(url,headers=headers)..原创 2021-03-04 15:08:09 · 2122 阅读 · 1 评论