lua字符串查找函数 string.find(s, pattern [, init [, plain]] )

最新推荐文章于 2024-05-12 11:36:23 发布

wangsongsong1

最新推荐文章于 2024-05-12 11:36:23 发布

阅读量864

点赞数

分类专栏： lua 文章标签： lua

lua 专栏收录该内容

1 篇文章

订阅专栏

本文深入解析Lua中string.find函数的使用，包括子串匹配和模式匹配，详细介绍了如何使用该函数进行字符串查找并获取匹配结果的位置。同时，文章还阐述了Lua中字符类的概念及其在模式匹配中的应用，如.*、%s等，并通过实例演示了如何利用这些字符类进行复杂匹配。

原文链接：http://blog.youkuaiyun.com/zhangxaochen/article/details/8084396

函数原型 string.find(s, pattern [, init [, plain]] )
s: 源字符串
pattern: 待搜索模式串
init: 可选，起始位置
plain: 我没用过

① 子串匹配：

[plain]view plaincopy 
   
 print(string.find("haha", 'ah') )  ----- 输出 2 3  

注意： lua 里面数组或者字符串的字符，其下标索引是从 1 开始，不是 0
string.find 默认情况下返回两个值，即查找到的子串的起止下标，如果不存在匹配返回 nil。
如果我们只想要 string.find 返回的第二个值，可以使用 虚变量（即下划线）

[plain]view plaincopy 
   
 _, q=string.find("haha", 'ah')  
  print(q)  ----- 输出 3  

② 模式匹配：

[plain]view plaincopy 
   
 pair = " name = Anna "  
  print(string.find(pair, "(%a+)%s*=%s*(%a+)") ---- 输出 2 12 name Anna  

解释：
如果 find 的第二个参数使用了某种匹配模式，并且模式串里面带括号。那么表示会“捕捉”括号括起来的模式匹配到的字符串。捕捉，当然会把他们作为返回值。这里捕捉了两下，所以 find 多返回了两个值

那么，这个模式是怎么匹配的呢？
Lua 支持的字符类有：

. 任意字符
%s 空白符
%p 标点
%c 控制字符
%d 数字
%x 十六进制数
%z 代表0的字符
%a 字母
%l 小写字母
%u 大写字母
%w 字母数字
字符类的大写形式代表相应集合的补集，比如 %A 表示除了字母以外的字符集
另外，* + - 三个，作为通配符分别表示：
*：匹配前面指定的 0 或多个同类字符，尽可能匹配更长的符合条件的字串
+：匹配前面指定的 1 或多个同类字符，尽可能匹配更长的符合条件的字串
-：匹配前面指定的 0 或多个同类字符，尽可能匹配更短的符合条件的字串

于是， "(%a+)%s*=%s*(%a+)" 表示，先匹配一个或多个字母，然后是零个或多个空白符（比如空格），然后是个 '='，然后空白符，然后字母。这样，满足匹配的只有 "name = Anna"。所以输出位置为 2 12.
因为捕获了两个 (%a+)，也就是 name, Anna 这两个单词，所以还输出了这两个单词

另外， lua 使用 %1-%9 表示拷贝捕获。举例说：

[plain]view plaincopy 
   
 s="abc \"it's a cat\""  
 _,_,_,q=string.find(s, "([\"'])(.-)%1")  
 print(q)  -----输出： it's a cat  

首先， [\"'] 表示匹配双引号或者单引号，因为有括号，所以引号被捕获。然后匹配几个任意字符并且捕获他，最后 %1 匹配与第一次捕获到的（即引号）相同的字串。所以整个模式匹配到的是 "it's a cat", 而第二次捕获的是去掉两头引号的字串，即 it's a cat.

还有， '-' 与 '*' 到底有什么不同呢？在上面， "([\"'])(.*)%1" 匹配到的结果与 '-' 是一样的。尽可能匹配更长，尽可能匹配更短究竟什么不同呢？看例子：

[plain]view plaincopy 
   
 print( ("\"hello\" \"hello\""):find('"(.+)"') )  ----输出 1 15 hello" "hello  
 print( ("\"hello\" \"hello\""):find('"(.-)"') )  ----输出 1 7 hello  

* 尽可能长，所以匹配了首尾两个引号，捕获了中间的 (hello" "hello)
- 尽可能短，所以碰到第二个引号就说匹配完了，因此只捕获了第一个 (hello)

原文链接：http://blog.youkuaiyun.com/zhangxaochen/article/details/8084396