
爬虫学习
文章平均质量分 60
Zero_Adam
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫学习 ----- 第二章 爬取静态网站 ---------- 04 带着cookie去爬取东西
目录:1. 带着cookie去爬取东西1. 登陆:1. 拿cookie呀,2. 拿书架上的数据。 学习自:https://www.bilibili.com/video/BV1b64y117X6?p=43&spm_id_from=pageDriver 1. 带着cookie去爬取东西 任务: 登陆->得到cookie 带着cookie 去请求到书架的 url ->爬取书架上的内容。 将 上面的两个操作 连接起来, 可以用session 进行请求 ,session,可原创 2021-05-06 20:39:45 · 406 阅读 · 0 评论 -
爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂
目录:1. 【案例】re屠戮电影天堂1.目的:1. 定位到2021新片精品1. 出现错误???2. 网页乱码???2.从2021新片精品中提取到子页面的链接地址3.请求子页面的链接地址,拿到我们想要的下载地址... 1. 【案例】re屠戮电影天堂 1.目的: 定位到2021新片精品 从2021新片精品中提取到子页面的链接地址 请求子页面的链接地址,拿到我们想要的下载地址… 1. 定位到2021新片精品 我想得到这里的电影的下载地址。 1. 出现错误??? 2. 网页乱码??? python抓包原创 2021-05-05 22:23:22 · 921 阅读 · 2 评论 -
爬虫学习 ----- 第二章 爬取静态网站 ---------- 02 . re 模块学习 ---- 爬取豆瓣top250
目录:1. 【案例】re来爬取 豆瓣top250 1. 【案例】re来爬取 豆瓣top250 信息在 页面源代码中,直接用 re 拿 就行了。 拿着四了数据。 建议找到关键作为起始位置。。之后,往前找一下根目录, 然后再找年份 # -*- coding: utf-8 -*- # @Time: 2021/5/5 14:05 # @Author: adam # @File: demo2.py import re import requests header = { 'User原创 2021-05-05 22:23:14 · 273 阅读 · 0 评论 -
爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库
目录:1. 写入文件的时候要encoding一下。1. re1. 正则的基础知识2. python的re模块。2. re.finditer ( r"\d+", "********") 最常用!!!!3. 预加载正则表达式:4. 从正则中取出数据来。 1. 写入文件的时候要encoding一下。 window默认的编码是 gbk 编码, 1. re 1. 正则的基础知识 字符组,数字,字母: [a-zA-Z0-9] [^***]。除了这里面的都行, .*?非贪婪匹配 2. python的re模块。原创 2021-05-05 22:22:57 · 3180 阅读 · 10 评论