
数据获取|预处理
1015号居民
这个作者很懒,什么都没留下…
展开
-
正则表达式
re.sub(r"<.*?>| |\n", “”, text) # 清洗html的特殊符号 ((?=[\x21-\x7e]+)[^A-Za-z0-9]) #匹配各种特殊字符原创 2021-08-05 11:26:25 · 197 阅读 · 0 评论 -
爬虫各种问题
1.request.get()正常返回200但是text无内容 添加浏览器的headers import requests import lxml # 获取源码 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'} html = requests.get("https://blog.cs原创 2021-07-29 09:33:54 · 709 阅读 · 0 评论