最近在爬取今日头条时 出现了正则无法正确匹配url问题 不使用’unicode-escape’方法下 现已解决 希望能帮助各位小伙伴
欲匹配的url如图

开始我使用的正则格式为
import re
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/80.0.3987.149 Safari/537.36',
'cookie': 'tt_webid=6806572343562094094; s_v_web_id=verify_k81ca1w0_vh0EbTyr_HS3Y_4PFK_Bwq2_DOrKyvhp5uMN; '
'WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6806572343562094094; '
'ttcid=43d91974d34a42df9358bcc4fb4a0c2834; csrftoken=444cb50514011fb72cca45e815aaa808; '
'UM_distinctid=170fc2b546d409-074b4e2fd4738a-f313f6d-144000-170fc2b546ebd2; '
'CNZZDATA1259612802=591899891-1584774793-https%253A%252F%252Fwww.toutiao.com%252F%7C1584774793; '
'_ga=GA1.2.958742555.1584778663; SL

最低0.47元/天 解锁文章
1775

被折叠的 条评论
为什么被折叠?



