1.爬虫必备基础知识(Python)

原创

已于 2024-04-18 14:42:57 修改 · 1.1k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

于 2024-04-17 09:13:16 首次发布

文章目录

一. 必备Python基础

一. 必备Python基础

1.1 基础语法相关

if条件判断

if 条件:
    # 事情1
else:
    # 事情2
    
当你需要判断的时候. 就去写if.

上面就是if的最基础的语法规则. 含义是, 如果条件为真, 去执行事情1, 如果条件不真, 去执行事情2. 它是用来做条件判断的

举例,

在写爬虫的时候. 会遇到这样的两种情况

情况一, 数据里有一些不需要的内容

data = "10,英雄本色,1500万"   # 正常你需要的数据
data = "11,-,-"  # 你不需要的数据

# 伪代码, 理解含义(思路)
if data里有你需要的数据:
	处理数据
else:
 	再见

baidu.com

第一页的内容和第二页的内容

网页有可能会有多种页面结构

逼着自己写一个提取器。去适应不同的页面结构 -> 难度系数(非常高)
写两个提取器, 不同的提取器去爬取不同的网页

情况二, 页面结构不统一, 会有两种页面结构

# 伪代码, 理解含义(思路)
提取器1 = xxxx  #  用来提取页面中内容的
提取器2 = xxxxxx

# 页面有可能是不规则的。 
结果1 = 提取器1.提取(页面)
if 结果1:
    有结果. 存起来
else:
    没有结果. 
    结果2 = 提取器2.提取(页面)

while循环
```
while 条件:
    循环体
```
如果条件为真, 就执行循环体, 然后再次判断条件…直到条件为假. 结束循环.

反复的执行一段代码

关于True和False

True, 是真

False, 是假

下面这个需要记住

# 几乎所有能表示为空的东西. 都可以认为是False
print(bool(0))
print(bool(""))
print(bool([]))
print(bool({
     
     }))
print(bool(set()))
print(bool(tuple()))
print(bool(None))
# 上面这一坨全是False, 相反的. 都是真. 利用这个特性. 我们可以有以下的一些写法

# 伪代码, 理解逻辑. 
结果 = 提取器.提取(页面)
if 结果:
    有结果. 我要保存结果
else:
    没结果.......

1.2 字符串

字符串在`爬虫`里. 必须要知道的几个操作:

索引和切片
索引, 就是第几个字符. 它从0开始.
切片, 从字符串中提取n个字符.

s = "今天我不上班"
print(s[1])
print(s[0])

print(s[2:4])  从第2个, 到第4个(取不到4)

strip()

我们从网页上提取的数据. 很多都是带有一些杂质的(换行, 空格),怎么去掉?

strip()可以去掉字符串左右两端的空白(空格, 换行\n, 回车\r, 制表符\t)
```
s = "    \t\t\t我的天哪\r\r      \n\n  "  # 够乱的字符串
s1 = s.strip()
print(s1)  # 好了 `我的天哪`
```

split()

split, 切割

s = "10,男人本色,100000万"  # 你在网页上提取到这样的一段数据. 现在我需要电影名称
tmps = s.split(",")
name = tmps[1]
print(name)  # 男人本色

id, name, money = s.split(",")  # 切割后. 把三个结果直接怼给三个变量
print(id)
print(name)
print(money)

replace()

replace, 字符串替换

s = "我      \t\t\n\n爱   黎       明    "   # 这是你从网页上拿到的东西
s1 = replace

最低0.47元/天解锁文章