2019-08-13day17总结正则表达式

一、正则表达式1

from re import fullmatch, search, findall

0.fullmatch
fullmatch(正则表达式, 字符串) - 查看字符串和正则表达式是否匹配，如果不匹配结果就是None
正则表达式：r'正则语法'

1.什么是正则表达式
正则表达式是处理字符串的工具，通过拨不通的正则符号来描述字符串的规则

2.正则符号（正则表达式的语法）
1）普通字符 - 除了在正则中有特殊功能和特殊意义的符号以外的字符都算普通字符
普通字符代表字符本身

匹配一个字符串有三个字符，分别是'a', 'b', 'c'

re_str = r'abc'
result = fullmatch(re_str, 'abc')
print(result)

2）. - 匹配任意一个字符
一个.只能匹配一个字符

匹配一个字符串长度是8，前三个字符时abc，后三个字符时123，中间是两个任意字符

re_str = r'abc..123'
result = fullmatch(re_str, 'abcwl123')
print(result)

3）\w - 匹配一个数字、字母或者_（在ASCII码表中）
一个\w只能匹配一个字符

匹配一个长度是4的字符串，第一个字符时数字、字母、或_，后面是哪个字符是'abc'

re_str = r'\wabc'
result = fullmatch(re_str, '_abc')
print(result)

4）\d - 匹配任意一个数字字符
匹配一个长度是5 的字符串，前两个字符是任意数字，后面三个是任意字符

re_str = r'\d\d...'
result = fullmatch(re_str, '98lol')
print(result)

5）\s - 匹配任意一个空白字符
空白字符包括：空格、换行、制表符...

result = fullmatch(r'how\sare!', 'how are!')
print(result)

6）\大写字母
\D - 匹配除了数字字符以外的任意字符（匹配一个非数字字符）
\S - 匹配一个非空白字符

re_str = r'\Dabc\S'
result = fullmatch(re_str, 'aabc5')
print(result)

7）[字符集] - 匹配字符集中出现的任意一个字符
注意：一个[]只能匹配一个字符

a.
[abc] - 匹配abc中任意一个字符
[赵钱孙李] - 匹配赵钱孙李中的任意一个字符

匹配一个长度是4的字符串，第一个字符是1或者3或者3，后面是abc

re_str = r'[137]abc'
print(fullmatch(re_str, '1abc'))

b.
[1-9] - 匹配1到9中的任意一个字符（字符编码值递增）
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z] - 匹配任意一个字母
[a-zA-Z0-9_] / [A-Za-z0-9_] - 匹配任意一个字母、数字或_
[ \t\n] - 匹配任意一个空白字符
[\u4e00-\u9fa5] - 匹配任意一个中文字符

re_str = r'[!-&]abc'
print(fullmatch(re_str, '!abc'))

8）[^字符集] - 匹配不在字符集中的任意一个字符
[^abc] - 匹配任意一个不是a、b、c的字符

检测符号
所有的检测符号都不会影响字符串的长度

1）\b - 检查是否是单词边界
单词边界 - 能够将两个单词隔开并且不会产生歧义的任意符号：空白字符、标点符号、字符串开头字符串结尾
how are、how，are、how-are
匹配规则：先去掉\b对字符串进行匹配，如果匹配成功再检查\b所在的位置是否是单词边界

2）^ - 检查^所在位置是否是字符串开头
注意：这儿的^是在[]外

3） $- 检查$ 所在的位子是否是字符串结尾

二、正则表达式2

from re import *

控制次数的符号：字符符号

1.* - 匹配0次或多次
123a* - 123后面a出现0次货多次
123\d* - 123后面出现0个或者多个任意数字字符

123[mnxy9]*   - 123

re_str = r'abc0*123'
print(fullmatch(re_str, 'abc123'))

2.+ - 匹配1次或多次

re_str = r'123[abc]+'
print(fullmatch(re_str, '123abcaaaa'))

3.? - 匹配0次或1次

-?123   - 123/-123

re_str = r'_?abc'
print(fullmatch(re_str, '_abc'))

4.{}
1）{N} - 匹配N次
a{3} - 匹配三个a, aaa
\d{3} - 匹配三个任意数字

匹配电话号码

re_str = r'1[3-9]\d{9}'

2）{M,N} - 匹配M到N次（至少M次，最多N次）

匹配密码：要求是6-12位的字母

re_str = r'[a-zA-Z]{6,12}'

3）{M,} - 匹配至少M次

4）{,N} - 匹配最多N次

5.贪婪和非贪婪
在匹配次数不确定的时候，会出现贪婪和非贪婪两种情况：默认情况都是贪婪的。

什么是贪婪：在能够匹配成功的前提下，匹配次数尽可能多

re_str = r'a.+'
print(search(re_str, 'sda====fsjuhfisf54df54d'))
print(search(r'a\d{3,8}', 'dahhfdbja12315456413215'))

什么是非贪婪：在能够匹配成功的前提下，匹配次数尽可能少;（在匹配次数后加?）

*?
+?
??
{M,N}?
{M,}?
{,N}?
print(search(r'a\d{3,8}?', 'dahhfdbja12315456413215'))

分之

|
正则1|正则2 - 先让正则1区匹配，如果匹配成功就成功；匹配失败再让正则2去匹配
（正则1和正则2中只要有一个能够匹配成功就行）
练习1：写一个正则表达式，匹配一个字符串：abc的前面是两个数字或者两个大写字母
23abc，WLabc

方法一：

re_str = r'\d{2}abc|[A-Z]{2}abc'

方法二：
分组
1.() - 将括号里面的内容作为一个整体
1）整体操作

r'(\d\d|[A-Z]{2})abc'
2）a8d5d6f8
r'([a-z]\d){4}'

3）分组
a.方便后面分段或者分情况取不同的匹配结果
b.分组重复：在正则中用\X来重复前面第X个分组匹配到的内容
注意：\X的前面必须有这个分组

re_str = r'abc|123'
print(fullmatch(re_str, 'abc'))
print(fullmatch(re_str, '123'))

转义
1.加
在正则中有特殊功能和特殊意义的符号前加\，让这个符号的特殊功能和意义消失

2.加[]
在[]中有特殊意义的符号有两个：a.^放在开头 b.-放在两个字符之间
其他符号包括：.+ ? * $，这些单独的符号在[]中都表示符号本身

三、re模块

from re import *

re模块是python提供的，专门针对正则表达式应用相关函数

1.compile(正则表达式) ->将正则表达式转换成正则对象

compile()

2.字符串匹配
fullmatch(正则表达式, 字符串) - 让正则表达式和字符串完全匹配
match(正则表达式, 字符串) - 匹配字符串开头
以上两个方法的结果：匹配失败结果是None，匹配成功返回匹配对象

re_str = r'\d{3}'
print(fullmatch(re_str, '789'))
print(match(re_str, '123dasuidhdihif==='))

1）匹配对象

result = fullmatch(r'(\d{3})=([a-z]{2})', '234=am')
print(result)

a.获取匹配到的字符串
匹配对象.group() - 获取整个正则表达式匹配到的字符串，结果是字符串
匹配对象.group(N) - 获取整个正则表达式中地N个分组匹配到的字符串

print(result.group())
print(result.group())
print(result.group(1))
print(result.group(2))

b.获取匹配到的字符串在原字符串中的位置信息
匹配对象.span() ->返回匹配结果在原字符串中的下标范围：[开始下标，结束下标)
匹配对象.span(N) ->返回地N个分组匹配到的结果在原字符串中的范围

print(result.span())
print(result.span(2))
start, end = result.span(1)
print(start, end)

c.获取原字符串
匹配对象.string

print(result.string)

3.查找
1）search(正则表达式, 字符串) - 在字符串中查找第一个满足正则表达式的子串，如果找到了结果是匹配对象，找不到就是None

result = search(r'\d{3}', '是否234ash==347jsdf')
print(result)

2）findall(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串；返回值是一个列表
注意：如果正则表达式中有分组，列表中的匹配结果只会去分组匹配到的内容

result = findall(r'\d{3}[a-z]{2}', '是234hu士大夫345mmks89h-=数348kl几十块的')
print(result)
result = findall(r'(\d{3})([a-z]{2})', '是234hu士大夫345mmks89h-=数348kl几十块的')
print(result)

3）finditer(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串；返回值是一个迭代器

result = finditer(r'(\d{3})([a-z]{2})', '是234hu士大夫345mmks89h-=数348kl几十块的')
group = []
group1 = []
group2 = []

for i in result:
    group.append(i.group())
    group1.append(i.group(1))
    group2.append(i.group(2))

print(group,group1,group2)

4.切割
split(正则表达式, 字符串) ->将字符串中满足正则表达式的子串作为切割点队长字符进行切割，返回值是一个字符串列表

result = split(r'\d+', '爱好3ja89是电话费889将括号看0===三等奖9数据98=的')
print(result)

5.替换

sub(正则表达式, 字符串1 , 字符串2) - 将字符串2中所有满足正则表达式的子串都替换成字符串1，返回一个字符串

message = input('评论：')  # 你妈逼，fuck you ，FUCK!
new_massage = sub(r'妈|fuck|逼', '*', message, flags=IGNORECASE)
print(new_massage)