正则表达式

导语

正则表达式的作用:

  • 测试字符串内的模式
  • 替换文本
  • 基于模式匹配从字符串中提取子字符串

语法

正则表达式的各组成部分可以是单个字符、字符集、字符范围或在几个字符之间选择。 也可以是这些组成部分的任意组合。

写完第一步是需要测试的,这里提供一个在线测试网站RegexPlaner

以下是个人常用的(具体的看官方文档)

  1. 通过在一对分隔符之间放置表达式的各种组成部分,就可以构建正则表达式
    /expression/
  2. 最简单的正则表达式是与搜索字符串相比较的单个普通字符。 例如,单字符正则表达式 A 会始终匹配字母 A,无论其会出现在搜索字符串的哪个位置。
    /A/
    /a/
    /123/
  3. 元字符
  • .:匹配除换行符以外的任意字符
  • \w:匹配字母或数字或下划线或汉字
  • \s:匹配任意的空白符
  • \d:匹配任意数字
  • \b:匹配单词的开始和结束
  • ^:字符串的开始
  • ¥:字符串的结束
  • 当然如果你字符串中本来就有这些符号,就可以使用\来进行转义.,如*就应该写成
    E.G:
    \ba\w*\b匹配以字母a开头的单词——先是某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w),最后是单词结束处(\b)。
    \d+匹配1个或更多连续的数字。这里的+是和
    类似的元字符,不同的是*匹配重复任意次(可能是0次),而+则匹配重复1次或更多次。
    元字符^(和数字6在同一个键位上的符号)和$都匹配一个位置,这和\b有点类似。^匹配你要用来查找的字符串的开头,$匹配结尾。比如一个网站如果要求你填写的QQ号必须为5位到12位数字时,可以使用:^\d{5,12}$
  1. 限定符
  • *:匹配零次或多次前面的字符或子表达式
  • +: 匹配一次或多次前面的字符或子表达式
  • `?:匹配零次或一次
  • {n}: 匹配N次
  • {n,}: 匹配N或更多次
  • {n,m}: 匹配N到M次
    E.G: Linux\d+:匹配Linux之后跟的一个或多个数字
  1. 字符类
    如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),你只需要在方括号里列出它们就行了,像[aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!)。
  • [a-z]&[A-Z]:匹配任意一个小写字母&大写字母
    E.G:
    /(?0\d{2}[) -]?\d{8}:就可以匹配(010)88886666,或022-22334455,或02912345678之类的。首先使用\对(进行转义,然后匹配一个或没有0,再接着两个数字,[)-]则匹配一次) or -这两个符号,最后再加上\d{8}匹配八位数字
  1. 反义
    有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义。
  • \W:匹配任意不是字母,数字,下划线,汉字的字符
  • \S:匹配任意不是空白符的字符
    ...
    *[^z]:匹配除了z以外的任意字符
  1. 分支条件 .
    正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开。
    E.G:
  • 0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)
  • \d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字,或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题:使用分枝条件时,要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话,那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。
  1. 分组
    前面我们看到单个字符数字等可以重复,其实多个也是可以的,这就需要使用分组啦
    E.G:
    ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?):匹配IP地址,自己领会~
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,198评论 0 9
  • 推荐几个正则表达式编辑器 Debuggex :https://www.debuggex.com/ PyRegex:...
    木易林1阅读 11,629评论 9 151
  • 初衷:看了很多视频、文章,最后却通通忘记了,别人的知识依旧是别人的,自己却什么都没获得。此系列文章旨在加深自己的印...
    DCbryant阅读 4,106评论 0 20
  • 几个正则表达式编辑器 Debuggex :https://www.debuggex.com/ PyRegex:ht...
    没技术的BUG开发攻城狮阅读 4,631评论 0 23
  • 注:本篇文章只为方便查看,特此保留,如有冒犯,敬请谅解!!! 本文目标 30分钟内让你明白正则表达式是什么,并对它...
    阿杰Alex阅读 1,516评论 0 10