关于爬虫时网页中含unicode编码导致正则无法正确匹配的问题

最近在爬取今日头条时 出现了正则无法正确匹配url问题 不使用’unicode-escape’方法下 现已解决 希望能帮助各位小伙伴
欲匹配的url如图

在这里插入图片描述

开始我使用的正则格式为


import re

headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '

                  'Chrome/80.0.3987.149 Safari/537.36',

    'cookie': 'tt_webid=6806572343562094094; s_v_web_id=verify_k81ca1w0_vh0EbTyr_HS3Y_4PFK_Bwq2_DOrKyvhp5uMN; '

              'WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6806572343562094094; '

              'ttcid=43d91974d34a42df9358bcc4fb4a0c2834; csrftoken=444cb50514011fb72cca45e815aaa808; '

              'UM_distinctid=170fc2b546d409-074b4e2fd4738a-f313f6d-144000-170fc2b546ebd2; '

              'CNZZDATA1259612802=591899891-1584774793-https%253A%252F%252Fwww.toutiao.com%252F%7C1584774793; '

              '_ga=GA1.2.958742555.1584778663; SL
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值