笔记提要:
三记:
- 涉及到软件安装和配置记
- 涉及到项目实战技能记
- 涉及到出错问题必须记
三不记:
- 书上有的知识点不记(配置、实战技能、易错点除外)
- 网上已经有完善的参考手册不记
- 看书的时候一定不记
正文:
1.正则表达式模块 re
其中四个函数search()、match()函数、全局搜索函数re.compile(part).findall(string)、str()
2.正则表达式中的表现形式:
- 原子 'abc'
- 元字符 \t \n
- 模式修正符 I不区分大小写 U 用Unicode解析
- 贪婪模式与懒惰模式 贪婪p.*y 懒惰p.*?y
- 常见的正则表达式 p(.*?)y 输出小括号内的内容
- 实例 <a href='http://www.baidu.com'>链接</a> 获取这个的网页链接
- 解:part='[a-zA-z]+://[^\s]*[.com|.cn]
- 解释一下:这里面的[^]^和单独的一个^是不同的,前者是非的意思,[^\s]表示非空格字符
- 而单独的一个^表示以^后面的字符开头的
- 还有就是[.com|.cn]里面的.和不在[]面的.也不同,前者表示就是.本身.而后者则表示的是任意的一个字符
学习正则表达式和学习一门外语是一样的他也有其他的'单词'------各种字符,'语法'-----各种匹配原则