
正则表达式
文章平均质量分 60
前端技术
前端开发工程师
展开
-
用python爬虫爬取2020年中国大学排行
用python爬虫爬取2020年中国大学排行话不多说,直接上代码:from bs4 import BeautifulSoup # 网页解析 获取数据import re # 正则表达式 进行文字匹配import urllib.request, urllib.error # 制定url 获取网页数据import xlwtdef main(): baseurl = "http://m.gaosan.com/gaokao/265440.html" datalist = getD原创 2021-02-05 08:46:55 · 1380 阅读 · 0 评论 -
基础爬虫系列课程授课内容4——正则表达式的使用
正则表达式的使用一、为什么要学正则表达式?实际上爬虫一共就四个主要步骤:(1)明确目标 (要知道你准备在哪个范围或者网站去搜索)(2)爬 (将所有的网站的内容全部爬下来)(3)取 (去掉对我们没用处的数据)(4)处理数据(按照我们想要的方式存储和使用)我们down下了的数据是全部的网页,这些数据 很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。什么是原创 2021-01-26 08:57:09 · 182 阅读 · 0 评论 -
详细讲解——正则表达式
正则表达式详细讲解正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、re原创 2020-08-25 21:35:13 · 581 阅读 · 0 评论