javascript高程3学习笔记:正则表达式基础知识

本文深入解析正则表达式的创建、元字符、匹配模式、量词、边界类、预定义类及其方法,通过实例详细说明了贪婪与非贪婪匹配、范围集合类、量词类、边界类的应用,并提供了正则表达式的综合实例与技巧。

1、创建正则表达式

    第一种方式:注意这里的正则表达式不能使用单引号或者双引号,如下 

var pattern1 = /[abc]/i;  //  匹配第一个"a"或"b"或"c",不区分大小写

     第二种方式:使用RegExp构造函数创建,该构造函数传入两个参数,都是字符串,所以需要特别注意"\"符号的转换,所有元字符(下面有讲元字符)需要双重转义,如下

var patt1 = new RegExp("[abc]","gi");  //  这里等价于  var patt1 = /[abc]/gi;
alert("[abc]".match(patt1));  //  return a
var patt2 = new RegExp("\\[abc\\]","gi");  //  这里等价于  var patt2 = /\[abc\]/gi;  而在引号内"\"必须转移为"\\"
alert("[abc]".match(patt2));  //  return [abc]

     说到这里思考两个问题:

    a、如果这里的正则表达式,是通过字符串和某个变量动态组合而成的,如何使用第一种方式创建正则表达式?

        显然,用第二种创建正则表达式的方式,肯定没有任何问题,因为,传入的第一个参数本身就是一个字符串。要用第一种方式创建,这里需要用到eval()函数,如下 

var str = "abc";  //  这可能是一个动态的变量
var patt1 = eval("/\\["+str+"\\]/"); // 等价于 var patt1 = /\[abc\]/;
alert("[abc]".match(patt1));  //  return [abc]

     b、上面两种创建方法有什么不同之处?

         《javascript高级程序设计(第三版)》中讲:区别在于是否共享,使用第一种方式创建的正则,共享,第二种不共享。经楼主实践发现结果有点出入,两种创建方式结果一样,都是(true true true),各位可以自行测试。所以这里MARK一下,这两种创建方式没什么区别

var re = null,i;
for(i=0;i<3;i++){
    re = /cat/g;//书:实例属性不会重置,下面的结果应该是 true false true
    alert(re.test("catasdfdfdf"));
}
for(i=0;i<3;i++){
    re = new RegExp("cat","g");//书:实例属性会重置,下面的结果应该是 true true true
    alert(re.test("catasdfdfdf"));
}

    这里顺便讲一下匹配模式的三个标志:g、i、m

        g:设置了g之后,模式被应用于所有字符串,发现第一个匹配项后,不会立即停止,模式的lastIndex会移至下一个位置,待下一次应用此模式的时候,再次从lastIndex开始匹配,如果匹配到最后了,lastIndex才会被重置为0;

        i:这个很好理解,不区分大小写;

        m:表示多行模式,即在到达一行文本末尾的时候还会继续查找下一行,进行匹配;

 

2、元字符:  ( [ { \ ^ $ | ) ? * + . ] }    

    这些字符在正则表达式中有一或多种特殊用途,因此如果想匹配这些字符,都需要进行转义。如:

var pattern1 = /\[abc\]/i;  //  匹配第一个"[abc]",不区分大小写
var pattern2 = /[abc]/i;  //  匹配第一个"a"或"b"或"c",不区分大小写

 

 3、RegExp实例属性   

     global、ignoreCase、multiline、lastIndex、source,这些属性用处不大,其中lastIndex可用于调试,简单示例

var patt1 = /cat/g;
patt1.test("catasdfdfdf");
dw(patt1.global);  //  是否设置了g,全局模式  //  true
dw(patt1.ignoreCase);  //  是否设置了i,不区分大小写  //  false
dw(patt1.multiline);  //  是否设置了m,多行匹配,到了一行末尾,能够继续匹配下一行  //  false
dw(patt1.lastIndex);  //  表示开始搜索下一个匹配项的开始位置,第一次为0  //  3
dw(patt1.source);  //  返回正则表达式字面量  //  cat

 

4、范围集合类:[]  ^  |  

    [abc],表示a或者b或者c中的任意一个字符

    [a-z]、[A-Z]、[0-9],表示小写字母,大写字母,0到9的数字

    [^a-z]、[^A-Z]、[^0-9],表示非小写字母,非大写字母,非0到9的数字

    [abc|def],表示abc和def中的任意一个

alert(/[abc]/.test("a"));//true
alert(/[abc]/.test("gg"));//false
alert(/[^abc]/.test("a"));//false
alert(/[^abc]/.test("gg"));//true
alert(/[a-z]/.test("A"));//false
alert(/[A-Z]/.test("A"));//true
alert(/[abc|def]/.test("def"));//true

 

5、量词类:?  *  +  {m}  {m,n}  {m,}     

    ?                                 0或1次,放在量词后面,表示非贪婪品匹配,后面讲解

    *                                 0或多次

    +                                1或多次

    {m}                            m次

    {m,n}                         至少m次,至多n次

    {m,}                           至少m次

alert(/a?/.test("a"));//true
alert(/a?/.test("b"));//true  可以出现0次
alert(/a*/.test("a"));//true
alert(/a*/.test("b"));//true  可以出现0次
alert(/a+/.test("a"));//true
alert(/a+/.test("b"));//false
alert(/a{3}/.test("aaaaa"));//true
alert(/a{3}/.test("bbbbb"));//false  看到网上一些文章将,这里应该是0或者3次,这里楼主测试了几个浏览器,没有0次
alert(/a{3,5}/.test("aaaaa"));//true
alert(/a{3,5}/.test("bbbbbb"));//false
alert(/a{3,}/.test("aaaaa"));//true
alert(/a{3,}/.test("bbbbbb"));//false

 

6、边界类:  ^  $  \b  \B     

    ^                               表示开头的标志,注意,不能紧接着左中括号,比如[^A-Z],这样表示非

    $                               表示结尾的标志

    \b                              单词边界的标志,这样理解,它表示单词间那个看不到的东西,一侧是单词字符,一侧是非单词字符(包括各种标点和空白字符或中文)

    \B                             非单词边界的标志

alert(/^居$/.test("居"));  //  只限一个 居   true
alert(/^居$/.test("居居"));  //  只限一个 居   false
alert(/\b啊/.test("a啊"));  //  true  思考一下:为什么这个和下面的结果不一样??
alert(/\b啊/.test("-啊"));  //  false
alert(/\B啊/.test("a啊"));  //  false
alert(/\B啊/.test("-啊"));  //  true

alert(/\b啊/.test("a啊"));  中,"a"和"啊"之间存在一个\b,因为\b的左边是"a",右边是"啊",所以能够匹配,为true;

相反:alert(/\b啊/.test("-啊"));  中,"啊"的左边有个\b,但是\b的左边是"-",不是单词字符,所以,不能匹配,为false

 

7、预定义类:  \d  \D  \s  \S  \w  \W  . 

    \d                             表示0-9的数字字符,相当于  [0-9]

    \D                            表示非0-9的数字字符,相当于  [^0-9]

alert(/\d/.test("1"));//true
alert(/\D/.test("1"));//false 

    \s                             空白字符,相当于  [\n\r\f\t\x0B ]  ,注意空格也算

    \S                            非空白字符,相当于  [^\n\r\f\t\x0B ]

alert(/\s/.test(" "));//true,空格也算 
alert(/\S/.test("\n\r\f\t\x0B "));//false 
alert(/\S/.test("\n\r\f\t\x0B \\"));//true 

     \w                            单词字符,相当于  [a-zA-Z0-9_]

    \W                           非单词字符,相当于  [^a-zA-Z0-9_]

alert(/\w/.test("afdas"));//true
alert(/\W/.test("afdas"));//false 

     (点).                              表示除了\n和\r意外的任意字符,相当于  [^\n\r] 

alert(/./.test("\n\r"));//false  ,只有这两个,其他的都能够被  .  匹配
alert(/./.test(" "));//true 

 

8、RegExp实例方法:exec()    test()    以及常用的匹配方法,String的实例方法match()     

    exec():返回第一个匹配项信息的数组,没能匹配成功返回null,用法:pattern.exec(str);    需要注意有没有"g"的不一样

var re1 = /([a-z]*)bbb/;//贪婪 
document.write(re1.test("abbbaabbb1234")+"<br />");//true 
document.write(re1.exec("abbbaabbb1234")+"<br />");//abbbaabbb,abbbaa,这里贪婪匹配到abbaabbb,然后$1为abbbaa,所以此时返回abbbaabbb,abbbaa
var re1 = /([a-z]*)bbb/g;//贪婪 
document.write(re1.test("abbbaabbb1234")+"<br />");//true 
document.write(re1.exec("abbbaabbb1234")+"<br />");//null    //因为设置了g标识,并为贪婪匹配,而上面的test已经贪婪匹配到abbbaabbb,后面只有1234,所以此时匹配不到,返回null

     test():在只需要知道是否匹配,不需要知道具体匹配什么文本的情况下,使用这个放个比较方便,用法:pattern.test(str);

var re1 = /([a-z]*)bbb/;//贪婪 
document.write(re1.test("abbbaabbb1234")+"<br />");//true 
document.write(re1.test("abbbaabbb1234")+"<br />");//true 
document.write(re1.test("abbbaabbb1234")+"<br />");//true 
var re1 = /([a-z]*)bbb/g;//贪婪 
document.write(re1.test("abbbaabbb1234")+"<br />");//true 
document.write(re1.test("abbbaabbb1234")+"<br />");//false 要理解这里为什么是false,因为设置了g,那么这次的匹配是从1开始的
document.write(re1.test("abbbaabbb1234")+"<br />");//true 

     match():这个函数比较特别,在设置g和不设置的情况下,表示形式完全不一样,在未设置g的情况下,表现形式和exec一样,设置了g的情况下,将返回所有匹配到的值的集合,用法:str.match(pattern)

var re1 = /([a-z]*)bbb/;//贪婪 
document.write("abbbaabbb1234".match(re1)+"<br />");//abbbaabbb,abbbaa 这里的abbbaabbb是匹配到的整个字符串,abbbaa是匹配第一个小括号的字符串
var re1 = /([a-z]*)bbb/g;//贪婪 
document.write("abbbaabbb1234".match(re1)+"<br />");//abbbaabbb,在设置了g后,match()返回所有匹配到的值

     最后,exec()和未设置g的match(), 最后返回的数组的第一个元素是整个匹配的字符串,如果模式中存在小括号,那么第二个元素是第一个括号的匹配内容,以此类推,第三个、第四个。。。比如:

var re1 = /(a(b(c)))d/;
var str = "abcdd";
var matches = str.match(re1);
alert(matches[0]);//abcd  //这里是整个字符串
alert(matches[1]);//abc  //这里是第一个小括号
alert(matches[2]);//bc  // 这里是第二个小括号
alert(matches[3]);//c  // 这里是第三个小括号

 

9、贪婪和非贪婪匹配  ?   

    贪婪匹配:匹配到之后,继续往后匹配到字符串结束,然后选择最长的。比如:对于字符串"aaaaaab",要匹配/a+/,那么匹配的将是"aaaaaa",而不是一个"a"。

    非贪婪匹配:匹配到之后,马上停止。比如:对于字符串"aaaaaab",要匹配/a+?/,那么匹配的将是"a",而不是一个"aaaaaa"。用法就是在量词后面加"?"。

var re1 = /a+/;
var str = "aaaaaaa";
alert(str.match(re1));//  aaaaaaa
var re1 = /a+?/;
var str = "aaaaaaa";
alert(str.match(re1));//  a

     下面给一个综合一点的例子:讲解了贪婪和非贪婪,全局g,exec和match的区别???

var re1 = /([a-z]*)bbb/;//贪婪 
var re2 = /([a-z]*?)bbb/;//非贪婪 
document.write(re1.test("abbbaabbb1234")+"<br />");//true 
document.write(re1.exec("abbbaabbb1234")+"<br />");//abbbaabbb,abbbaa,这里贪婪匹配到abbaabbb,然后$1为abbbaa,所以此时返回abbbaabbb,abbbaa
document.write("abbbaabbb1234".match(re1)+"<hr>");//abbbaabbb,abbbaa,这里贪婪匹配到abbaabbb,然后$1为abbbaa,所以此时返回abbbaabbb,abbbaa
 
document.write(re2.test("abbbaabbb1234")+"<br />");//true 
document.write(re2.exec("abbbaabbb1234")+"<br />");//abbb,a ,这里非贪婪匹配到abbb,然后$1为a,所以此时返回abbb,a
document.write("abbbaabbb1234".match(re2)+"<hr>");//abbb,a ,这里非贪婪匹配到abbb,然后$1为a,所以此时返回abbb,a

var re3 = /([a-z]*)bbb/g;//贪婪 
var re4 = /([a-z]*?)bbb/g;//非贪婪 
document.write(re3.test("abbbaabbb1234")+"<br />");//true 
document.write(re3.exec("abbbaabbb1234")+"<br />");//null ,因为设置了g标识,并为贪婪匹配,而上面的test已经贪婪匹配到abbbaabbb,后面只有1234,所以此时匹配不到,返回null
document.write("abbbaabbb1234".match(re3)+"<hr>");//abbbaabbb,注意在设置了g标识后,match只返回匹配到的所有值,这里因为是贪婪匹配,所以匹配了abbbaabbb
 
document.write(re4.test("abbbaabbb1234")+"<br />");//true 
document.write(re4.exec("abbbaabbb1234")+"<br />");//aabbb,aa ,因为设置了g标识,并为非贪婪匹配,而上面的test已经贪婪匹配到abbb,后面只有aabbb1234,所以此时在此匹配到aabbb,此时$1为aa,所以返回aabbb,aa 
document.write("abbbaabbb1234".match(re4)+"<hr>");//abbb,aabbb 注意在设置了g标识后,match只返回匹配到的所有值,这里因为是非贪婪匹配,所以匹配了abbb,aabbb

 

 10、反向引用   

   正则表达式中的匹配组捕获的子字符串。每个反向引用都由一个编号或名称来标识,并通过“\编号”表示法进行引用。

/(\w+)/.test("hello-world"); 
dwl(RegExp.$1);//hello 
dwl(/(居)\1/.test("居居"))//true  这里的\1表示第一个小括号里面的内容
dwl("aa bbb cccc".replace(/(\w{2,}) (\w{2,}) (\w{2,})/,"$3 $2 $1"));  //  cccc bbb aa

 

11、非捕获性分组   ?: 

    并不是每个小括号都能通过反向引用进行捕获,在小括号后面加上"?:",即可进行设置非捕获性分组。

/(\w+)-(\w+)/.test("hello-world"); 
alert(RegExp.$0);//undefined 
alert(RegExp.$1);//""不会被捕获 
alert(RegExp.$2);//world 

 

12、正向前瞻  ?=  和负向前瞻  ?!     

    (?=str)        匹配后面紧跟是str,比如  he  能够通过模式  /he(?=llo)/  匹配  字符串 "hello"

    (?!str)        匹配后面紧跟不是str,比如  hel  能够通过模式  /he(?!llo)/  匹配  字符串 "hello"

//这样理解,将(?=str)或者(?!str)当做条件,然后考虑匹配其他的部分,匹配到了之后,再拿条件作对比,看符不符合
dwl("he-lloworld".match(/(\w+)(?=world)/g)); //llo   这里先匹配(\w+),找到两个块,he和lloworld,其中he不符合(?=world),而lloworld,只要拆成llo和world连接,就符合(?=world),即,llo链接了一个world,所以这里匹配了llo
dwl("he-lloworld".match(/(\w+)(?!world)/g)); //he,lloworld   这里先匹配(\w+),找到两个块,he和lloworld,其中he不符合(?=world),而lloworld,只要不拆,就符合(?!world),即,llo链接了一个world,所以这里匹配了he,lloworld

 

13、出几个实例题目?  

    a、讲一个字符串中的所有英文单词首字母大写?

var str = "你好hello世界woRld,我i爱love你you";
var str = str.toLowerCase().replace(/\b\w|\s\w/g,function(s){
    return s.toUpperCase();
});
alert(str)

    b、去除html代码中的所有标签,除了a标签,今天做了修正,考虑了一下几种情况!

 

//var str = "<p><a href='http://www.cnblogs.com/jusong/'>居居居居居居居居居</a></p><hr/><p> by <em>居居居居居居居居居</em></p>"; 
//var str = "<p><a href='http://www.cnblogs.com/jusong/'>居居居居居居居居居</a><abc></abc></p><hr/><p> by <em>居居居居居居居居居</em></p>"; 
//var str = "<p><a href='http://www.cnblogs.com/jusong/'>居居居居居居居居居</a ><abc></abc></p><hr/><p> by <em>居居居居居居居居居</em></p>"; 
//var str = "<p><a href='http://www.cnblogs.com/jusong/'>居居居居居居居居居</a ><abc></a bc></p><hr/><p> by <em>居居居居居居居居居</em></p>"; 
var str = "<p><a href='http://www.cnblogs.com/jusong/'>居居居居居居居居居</a><abc></zbc></p><hr/><p> by <em>居居居居居居居居居</em></p>"; 
var str = str.replace(/<(?!(\/a *(?=>)|a ))(.|\s)*?>/g,"");  //  这里用到了  负前瞻和前瞻
alert(str);  //  <a href='http://www.cnblogs.com/jusong/'>居居居居居居居居居</a > by 居居居居居居居居居

 

 

    下一节讲一下,常用的正则表达式,整理总结~~~!!!!!楼主喝口水,这么点东西写了快一天。。。


本文仅代表作者观点,如技术性错误,请联系: 点击这里给我发消息,注明: http://www.cnblogs.com/jusong

转载于:https://www.cnblogs.com/jusong/archive/2012/08/09/2628760.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值