关于爬虫时网页中含unicode编码导致正则无法正确匹配的问题

最新推荐文章于 2023-07-06 17:41:28 发布

原创

最新推荐文章于 2023-07-06 17:41:28 发布 · 1.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#乱码 #python #正则表达式 #bug

最近在爬取今日头条时出现了正则无法正确匹配url问题不使用’unicode-escape’方法下现已解决希望能帮助各位小伙伴
欲匹配的url如图

在这里插入图片描述

开始我使用的正则格式为


import re

headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '

                  'Chrome/80.0.3987.149 Safari/537.36',

    'cookie': 'tt_webid=6806572343562094094; s_v_web_id=verify_k81ca1w0_vh0EbTyr_HS3Y_4PFK_Bwq2_DOrKyvhp5uMN; '

              'WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6806572343562094094; '

              'ttcid=43d91974d34a42df9358bcc4fb4a0c2834; csrftoken=444cb50514011fb72cca45e815aaa808; '

              'UM_distinctid=170fc2b546d409-074b4e2fd4738a-f313f6d-144000-170fc2b546ebd2; '

              'CNZZDATA1259612802=591899891-1584774793-https%253A%252F%252Fwww.toutiao.com%252F%7C1584774793; '

              '_ga=GA1.2.958742555.1584778663; SL