因为要处理实验室布置的第二次任务,所以自学了正达式的相关内容。把相关的资料进行整理。
正则表达式
正则表达式是使用单个字符串来描述、匹配一系列符合某种句法规则的字符串。在日常编程及数据处理过程中,我们会遇到许多文本或字符串形式的数据及对其匹配、查找、替换等方面的需求。例如,检测用户输入的电话、邮箱等信息是否有效或符合规范;从网页中过滤筛选并提取所需的特定信息又称爬虫;批量提取或替换有规律的字符串等等。面对这些需求,使用多条逻辑判断对文本进行分析耗时耗力,正则表达式可以方便快捷地文本中找出满足你想要的格式的字符串,助力对文本数据的过滤清洗及分析。
正则表达式的语法
正则表达式是由普通字符(例如字符 a 到 z、数字0-9等等)以及特殊字符(称为"元字符 meta character")组成的文字模式来描述在搜索文本时要匹配的一个或多个字符串。匹配字符串的过程从左至右进行。
绝大多数普通字符在匹配时就是匹配字符本身比如 ‘A’, ‘a’, 或者 ‘0’,都是最简单的正则表达式,也可以拼接普通字符,例如 last 匹配字符串 ‘last’;特殊字符则包含特殊含义。常见的特殊字符有{}[]^$.|*+?以及\,其中\(反斜杠)提供转义功能。转义字符可帮助查询特殊字符本身,同时与bdswBDSWn等字母连用时也具有特殊含义。
完整的正则表达式由两种字符构成:特殊字符(元字符)和普通字符。
正则表达式的执行流程图