
python爬虫
从头学习爬虫,记录所得
卯月廿六
一个菜鸟
展开
-
Redis与scrapy框架的配置
管道的指定 修改管道,指定共享的redis ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline':300 }原创 2021-06-13 09:20:33 · 104 阅读 · 0 评论 -
scrapy 安装撞坑
网上查了下 有人说 升级 pip 和setuptools python -m pip install --upgrade setuptools python -m pip install --upgrade pip 我升级后 第一个问题 解决了 紧接着报错 猜测需要安装Visual C++ 14.0 ~.~Microsoft Visual C++ 14.0 is requir...原创 2020-04-02 00:50:04 · 129 阅读 · 0 评论 -
常用的user-agent
# pc端的user-agent user_agent_pc = [ # 谷歌 'Mozilla/5.0.html (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.html.2171.71 Safari/537.36', 'Mozilla/5.0.html (X11; L...原创 2020-03-25 02:04:07 · 1024 阅读 · 0 评论 -
re
re1 = re.find([正则表达式],【被提取的字符串】) 返回类型为列表,不成功则为空的列表 re2 = re.match(【正则表达式】,【被匹配的字符串】) 返回类型 成功为match对象 不成功则为none re3 = re.sub (【正则表达式】,【替换成的字符串】,【被匹配的字符串】) ...原创 2020-03-22 22:08:17 · 150 阅读 · 0 评论 -
正则表达式
. 除了\n和\r的所有字符 \d 数字 \D 非数字 \w 字母和下划线 \W 非字母和下划线 \s 空格 [a-z] 小写字母 [a-zA-Z0-9] 大小写字母与数字 [0-9] 数字0-9 [^0-9] 不是数字0-9 * 次数>=0 + ...原创 2020-03-20 23:06:33 · 113 阅读 · 0 评论