一. 必备Python基础
1.1 基础语法相关
-
if条件判断
if 条件: # 事情1 else: # 事情2 当你需要判断的时候. 就去写if.
上面就是if的最基础的语法规则. 含义是, 如果条件为真, 去执行
事情1
, 如果条件不真, 去执行事情2
. 它是用来做条件判断的举例,
在写爬虫的时候. 会遇到这样的两种情况
情况一, 数据里有一些不需要的内容
data = "10,英雄本色,1500万" # 正常你需要的数据 data = "11,-,-" # 你不需要的数据 # 伪代码, 理解含义(思路) if data里有你需要的数据: 处理数据 else: 再见
baidu.com
第一页的内容和第二页的内容
网页有可能会有多种页面结构
-
逼着自己写一个提取器。 去适应不同的页面结构 -> 难度系数(非常高)
-
写两个提取器, 不同的提取器去爬取不同的网页
情况二, 页面结构不统一, 会有两种页面结构
# 伪代码, 理解含义(思路) 提取器1 = xxxx # 用来提取页面中内容的 提取器2 = xxxxxx # 页面有可能是不规则的。 结果1 = 提取器1.提取(页面) if 结果1: 有结果. 存起来 else: 没有结果. 结果2 = 提取器2.提取(页面)
-
-
while循环
while 条件: 循环体
如果条件为真, 就执行循环体, 然后再次判断条件…直到条件为假. 结束循环.
反复的执行一段代码
-
关于True和False
True, 是真
False, 是假
下面这个 需要记住
# 几乎所有能表示为空的东西. 都可以认为是False print(bool(0)) print(bool("")) print(bool([])) print(bool({ })) print(bool(set())) print(bool(tuple())) print(bool(None)) # 上面这一坨全是False, 相反的. 都是真. 利用这个特性. 我们可以有以下的一些写法 # 伪代码, 理解逻辑. 结果 = 提取器.提取(页面) if 结果: 有结果. 我要保存结果 else: 没结果.......
1.2 字符串
字符串在`爬虫`里. 必须要知道的几个操作:
-
索引和切片
索引, 就是第几个字符. 它从0开始.
切片, 从字符串中提取n个字符.s = "今天我不上班" print(s[1]) print(s[0]) print(s[2:4]) 从第2个, 到第4个(取不到4)
-
strip()
我们从网页上提取的数据. 很多都是带有一些杂质的(换行, 空格),怎么去掉?
strip()可以去掉字符串
左右两端
的空白(空格, 换行\n, 回车\r, 制表符\t)s = " \t\t\t我的天哪\r\r \n\n " # 够乱的字符串 s1 = s.strip() print(s1) # 好了 `我的天哪`
-
split()
split, 切割
s = "10,男人本色,100000万" # 你在网页上提取到这样的一段数据. 现在我需要电影名称 tmps = s.split(",") name = tmps[1] print(name) # 男人本色 id, name, money = s.split(",") # 切割后. 把三个结果直接怼给三个变量 print(id) print(name) print(money)
-
replace()
replace, 字符串替换
s = "我 \t\t\n\n爱 黎 明 " # 这是你从网页上拿到的东西 s1 = replace