以前后端同事爬了别人家的网站,需要分析文本,他是想要知道如何通过
ClassName定位,后来尽然是让我写个正则匹配表达式。汗,趁记忆力的热乎劲儿写一篇非常规文章。
♨正则表达式是什么
正则表达式是一个描述字符模式的对象,按照人的语言习惯,当我们读一段文字的时候第一印象,下面有一段文字,我们可以通过多种方式描述它,而每一种方式描述的都是下面一段文字:
###几种使用情况
····处理字符串
··需要从一段字符串中提取想要的部分 ->match exec
··需要将一段字符串中的一部分替换组成新的字符串 ->replace
··需要将一段字符串处理成想要的数组 ->split
····判断字符串
··判断字符串是需要的 ->test
··判断字符串是需要的,并确定匹配位置 ->search
###组织正则语言
要匹配的字符串str
正则/a(\d+)[abc]rico(?=wang)/
/ a (\d+) [abc] rico(?=wang)/
str是否有a
↙ ↘
no yes → 至少要有一个数字
↙ ↘
no yes → 返回()匹配的结果 → → 括号内容会被`exec` `match`最后返回
↓
有a,或者b,或者c
↙ ↘
no yes → rico后面必须跟上wang
↙ ↘
no yes → 只匹配不返回()匹配的结果
var str = 'a1cricowang'
str.match(reg) 返回:["a1crico","1"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果
var str = 'a121cricowang'
str.match(reg) 返回:["a1crico","121"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果
reg.test(str) 返回: true
♨ 几种匹配符
-
\d匹配一个非负整数, 等价于 [0-9] -
\s匹配一个空白字符 -
\w匹配一个英文字母或数字,等价于[0-9a-zA-Z] -
.匹配除换行符以外的任意字符,等价于[^\n]
♨量词
-
*匹配零个或更多个,即0~n -
+匹配一个或更多个,即至少一个,1~n -
?匹配一个或零个 -
{}一般用来表示匹配的长度,比如\d{3}表示匹配三个数字,\d{1,3}表示匹配1~3个数字,\d{3,}表示匹配3个以上数字。
♨ [] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和数字
- 单字符取一个,比如
[abc]会匹配a或b或c - 一个
[]的内容一次只能匹配一个字符 -
[]里面的特殊符有五个:-,\,^,其他字符都是普通字符,包括*,.,?等 -
^在[^的首位时候才有特殊意义 -
[a|b|c]匹配的是a,|,b,|,c,五个中的其中任意一个。
♨()圆括号()是组,主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理
示例:
-
(abc|bcd|cde),表示这一段是abc、bcd、cde三者之一均可,顺序也必须一致 -
(abc)?,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现 -
(?:abc)表示找到这样abc这样一组,但不记录,不保存到$变量中,否则可以通过$x取第几个括号所匹配到的项,比如:(aaa)(bbb)(ccc)(?:ddd)(eee),可以用$1获取(aaa)匹配到的内容,而$3则获取到了(ccc)匹配到的内容,而$4则获取的是由(eee)匹配到的内容,因为前一对括号没有保存变量 -
a(?=bbb)顺序环视 表示a后面必须紧跟3个连续的b -
(?i:xxxx)不区分大小写(?s:.*)跨行匹配.可以匹配回车符
♨^ 与 $
^匹配一个字符串的开头,比如(^a)就是匹配以字母a开头的字符串$匹配一个字符串的结尾,比如(b$)就是匹配以字母b结尾的字符串^还有另个一个作用就是取反,比如[^xyz]表示匹配的字符串不包含xyz
♨几种需要转义的:( [ { \ ^ $ | ) ? * + .] }
♨string方法,接受一个正则对象 string.fn(reg)
-
match返回结果:存放匹配结果的数组。该数组的内容依赖于 regexp 是否具有全局标志g -
search返回结果:第一个与regexp相匹配的子串的起始位置,如果没有找到任何匹配的子串,则返回-1,search()方法不执行全局匹配,它将忽略标志g。 -
replace返回结果:一个新的字符串,是用replacement替换了regexp的第一次匹配或所有匹配之后得到的 -
split返回结果:一个字符串数组,按照正则匹配进行分割而成的数组
♨RegExp 对象方法,接受一个字符串 reg.fn(string)
-
test则是用来检测字符串是否匹配某一个正则表达式,如果匹配就会返回true,反之则返回false -
exec返回一个数组,其中存放匹配的结果。如果未找到匹配,则返回值为 null。
♨match 和exec的区别
- 一个是字符串的方法,一个是正则的方法,接受参数类型不一样
- 在有
g参数的全局匹配情况下,返回的结果不一样,match一次返回所有匹配结果,exec是使用一次,返回一个匹配结果,下次使用返回下一个匹配结果
♨贪婪模式和非贪婪模式
- 其实可以简单的理解,贪婪模式就是尽可能多的匹配,非贪婪模式就是尽可能少的匹配.
- 贪婪模式量词:
{x,y},{x,},?,*, 和+,匹配到它需要的第一个满足条件之后,贪婪模式则会继续向右边进行匹配下去 - 非贪婪模式量词:
{x,y}?,{x,}?,??,*?,和+?,所以非贪婪模式就是在贪婪模式后面加了一个问号,当它匹配到它需要的第一个满足条件之后,他就会停止了。而。
♨零宽正向断言和负向断言,只做判断是否符合()中的规则,并不匹配()中的规则。
-
(?=)零宽正向断言: 括号内表示某个位置右边必须和=右边匹配上 -
(?!)负向断言: 括号内表示某个位置右边不和!后的字符匹配。
补 : 发现缺少全面的正则基础知识查找 补一条连接点这里,缺少的可以在这里找,比如说哪个字符是匹配大小写之类的。2018.5.25更新
文章分三次更新,后期不定期更新修改
