1.爬虫必备基础知识(Python)

一. 必备Python基础

1.1 基础语法相关

  1. if条件判断

    if 条件:
        # 事情1
    else:
        # 事情2
        
    当你需要判断的时候. 就去写if. 
    
    

    上面就是if的最基础的语法规则. 含义是, 如果条件为真, 去执行事情1, 如果条件不真, 去执行事情2. 它是用来做条件判断的

    举例,

    在写爬虫的时候. 会遇到这样的两种情况

    情况一, 数据里有一些不需要的内容

    data = "10,英雄本色,1500万"   # 正常你需要的数据
    data = "11,-,-"  # 你不需要的数据
    
    # 伪代码, 理解含义(思路)
    if data里有你需要的数据:
    	处理数据
    else:
     	再见
    
    

    baidu.com

    第一页的内容和第二页的内容

    网页有可能会有多种页面结构

    1. 逼着自己写一个提取器。 去适应不同的页面结构 -> 难度系数(非常高)

    2. 写两个提取器, 不同的提取器去爬取不同的网页

    情况二, 页面结构不统一, 会有两种页面结构

    # 伪代码, 理解含义(思路)
    提取器1 = xxxx  #  用来提取页面中内容的
    提取器2 = xxxxxx
    
    # 页面有可能是不规则的。 
    结果1 = 提取器1.提取(页面)
    if 结果1:
        有结果. 存起来
    else:
        没有结果. 
        结果2 = 提取器2.提取(页面)
    
  2. while循环

    while 条件:
        循环体
    

    如果条件为真, 就执行循环体, 然后再次判断条件…直到条件为假. 结束循环.

    反复的执行一段代码

  3. 关于True和False

    True, 是真

    False, 是假

    下面这个 需要记住

    # 几乎所有能表示为空的东西. 都可以认为是False
    print(bool(0))
    print(bool(""))
    print(bool([]))
    print(bool({
         
         }))
    print(bool(set()))
    print(bool(tuple()))
    print(bool(None))
    # 上面这一坨全是False, 相反的. 都是真. 利用这个特性. 我们可以有以下的一些写法
    
    # 伪代码, 理解逻辑. 
    结果 = 提取器.提取(页面)
    if 结果:
        有结果. 我要保存结果
    else:
        没结果.......
    

1.2 字符串

字符串在`爬虫`里. 必须要知道的几个操作:
  1. 索引和切片
    索引, 就是第几个字符. 它从0开始.
    切片, 从字符串中提取n个字符.

    s = "今天我不上班"
    print(s[1])
    print(s[0])
    
    print(s[2:4])  从第2, 到第4(取不到4)
    
  2. strip()

    我们从网页上提取的数据. 很多都是带有一些杂质的(换行, 空格),怎么去掉?

    strip()可以去掉字符串左右两端的空白(空格, 换行\n, 回车\r, 制表符\t)

    s = "    \t\t\t我的天哪\r\r      \n\n  "  # 够乱的字符串
    s1 = s.strip()
    print(s1)  # 好了 `我的天哪`
    
  3. split()

    split, 切割

    s = "10,男人本色,100000万"  # 你在网页上提取到这样的一段数据. 现在我需要电影名称
    tmps = s.split(",")
    name = tmps[1]
    print(name)  # 男人本色
    
    id, name, money = s.split(",")  # 切割后. 把三个结果直接怼给三个变量
    print(id)
    print(name)
    print(money)
    
  4. replace()

    replace, 字符串替换

    s = "我      \t\t\n\n爱   黎       明    "   # 这是你从网页上拿到的东西
    s1 = replace
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

歌颂平凡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值