正则匹配怎么匹配网址？教你详细的教程

原创于 2024-09-03 11:37:27 发布 · 1.9k 阅读

CC 4.0 BY-SA版权

文章标签：

部署运行你感兴趣的模型镜像

使用正则表达式（Regular Expressions）来匹配网址（URL）是一个常见的需求。网址通常包含多种元素，比如协议（http, https）、域名、端口、路径、查询参数等。编写一个能匹配所有合法网址的正则表达式并不简单，不过可以通过分段理解并构建一个较为通用的正则表达式。

### 一、基础知识
在学习匹配网址的正则表达式之前，我们需要了解一些基本的正则表达式语法：

- `.` : 匹配除换行符外的任意字符。
- `*` : 匹配前面的元素0次或多次。
- `+` : 匹配前面的元素1次或多次。
- `?` : 匹配前面的元素0次或1次。
- `[]` : 匹配括号内的任意一个字符，例如`[a-z]`表示匹配所有小写字母。
- `()` : 分组标识符，将括号中的内容视为一个整体。
- `|` : 或操作符，表示匹配符号前后任意一个表达式。
- `^` : 匹配字符串的开头。
- `$` : 匹配字符串的结尾。
- `\` : 转义字符，用来匹配保留字符（如`.`、`*`等）。

### 二、构建网址的正则表达式

#### 1. 协议部分
协议部分通常是`http://`或`https://`。为了匹配这两种协议，我们可以使用以下表达式：

```regex
https?://
```

解释：
- `http`匹配“http”。
- `s?`表示`s`可有可无，匹配“http”或“https”。
- `://`是协议和域名之间的固定格式。

#### 2. 域名部分
域名由字母、数字、连字符`-`以及点`.`组成，通常还包含顶级域名如`.com`、`.net`等。可以使用以下正则匹配域名：

```regex
([a-zA-Z0-9-]+\.)+[a-zA-Z]{2,}
```

解释：
- `([a-zA-Z0-9-]+\.)`匹配一个或多个字母、数字或连字符后跟一个点号。括号加上`+`表示域名可能包含多个子域名（例如`www.`）。
- `[a-zA-Z]{2,}`匹配顶级域名部分，至少两个字母，例如`.com`、`.org`等。

#### 3. 端口部分（可选）
端口部分通常是一个由冒号`:`和后面的数字组成的可选部分。可以用以下正则表达式匹配：

```regex
(:[0-9]{1,5})?
```

解释：
- `(:[0-9]{1,5})`表示端口部分，`:`后跟1到5位数字。
- `?`表示端口部分是可选的。

#### 4. 路径部分（可选）
路径部分可以包括斜杠`/`以及字母、数字、下划线、连字符、点号等字符。可以使用以下正则表达式：

```regex
(/[a-zA-Z0-9._-]*)*
```

解释：
- `(/`表示路径开始的斜杠。
- `[a-zA-Z0-9._-]*`表示路径中的字符，可能是字母、数字、点、下划线或连字符。
- `)*`表示路径部分是可选的，可以有多个路径段。