python正则表达式re模块用法详解_python正则

python正则表达式re模块用法详解: 发布时间：2020-02-11编辑：脚本学堂

本文详细介绍了python正则表达式re模块的用法，来自官方文档，加入了作者自己的理解，是学习python正则表达式模块re的好教程，感兴趣的朋友参考下。

本模块提供了和Perl里的正则表达式类似的功能，不关是正则表达式本身还是被搜索的字符串，都可以是Unicode字符，这点不用担心，python会处理地和Ascii字符一样漂亮。

正则表达式使用反斜杆（）来转义特殊字符，使其可以匹配字符本身，而不是指定其他特殊的含义。这可能会和python字面意义上的字符串转义相冲突，这也许有些令人费解。
比如，要匹配一个反斜杆本身，你也许要用'\'来做为正则表达式的字符串，因为正则表达式要是，而字符串里，每个反斜杆都要写成。

你也可以在字符串前加上 r 这个前缀来避免部分疑惑，因为 r 开头的python字符串是 raw 字符串，所以里面的所有字符都不会被转义，比如r'n'这个字符串就是一个反斜杆加上一字母n，而'n'我们知道这是个换行符。因此，上面的'\'你也可以写成r''，这样，应该就好理解很多了。

例子:

复制代码代码示例:

>>> import re

>>> s = 'x5c'  #0x5c就是反斜杆

>>> print s

>>> re.match('\', s)  #这样可以匹配

<_sre.SRE_Match object at 0xb6949e20>

>>> re.match(r'', s)  #这样也可以

<_sre.SRE_Match object at 0x80ce2c0>

>>> re.match('', s)  #但是这样不行

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "/usr/lib/python2.6/re.py", line 137, in match

    return _compile(pattern, flags).match(string)

  File "/usr/lib/python2.6/re.py", line 245, in _compile

    raise error, v # invalid expression

sre_constants.error: bogus escape (end of line)

>>>

另外，re模块的方法，大多也就是RegexObject对象的方法，两者的区别在于执行效率。这个在最后再展开吧。

正则表达式语法
正则表达式（RE）指定一个与之匹配的字符集合；本模块所提供的函数，将可以用来检查所给的字符串是否与指定的正则表达式匹配。
正则表达式可以被连接，从而形成新的正则表达式；例如A和B都是正则表达式，那么AB也是正则表达式。一般地，如果字符串p与A匹配，q与B匹配的话，那么字符串pq也会与AB匹配，但A或者B里含有边界限定条件或者命名组操作的情况除外。也就是说，复杂的正则表达式可以用简单的连接而成。

正则表达式可以包含特殊字符和普通字符，大部分字符比如'A'，'a'和'0'都是普通字符，如果做为正则表达式，它们将匹配它们本身。由于正则表达式可以连接，所以连接多个普通字符而成的正则表达式last也将匹配'last'。（后面将用不带引号的表示正则表达式，带引号的表示字符串）

正则表达式的特殊字符：
'.'
点号，在普通模式，它匹配除换行符外的任意一个字符；如果指定了 DOTALL 标记，匹配包括换行符以内的任意一个字符。
'^'
尖尖号，匹配一个字符串的开始，在 MULTILINE 模式下，也将匹配任意一个新行的开始。
'$'
美元符号，匹配一个字符串的结尾或者字符串最后面的换行符，在 MULTILINE 模式下，也匹配任意一行的行尾。也就是说，普通模式下，foo.$去搜索'foo1nfoo2n'只会找到'foo2′，但是在 MULTILINE 模式，还能找到 ‘foo1′，而且就用一个 $ 去搜索'foon'的话，会找到两个空的匹配：
一个是最后的换行符，一个是字符串的结尾，演示：

复制代码代码示例:

>>> re.findall('(foo.$)', 'foo1nfoo2n')

['foo2']

>>> re.findall('(foo.$)', 'foo1nfoo2n', re.MULTILINE)

['foo1', 'foo2']

>>> re.findall('($)', 'foon')

['', '']

'*'
星号，指定将前面的RE重复0次或者任意多次，而且总是试图尽量多次地匹配。
'+'
加号，指定将前面的RE重复1次或者任意多次，而且总是试图尽量多次地匹配。
'?'
问号，指定将前面的RE重复0次或者1次，如果有的话，也尽量匹配1次。
*?， +?， ??
从前面的描述可以看到'*'，'+'和'?'都是贪婪的，但这也许并不是我们说要的，所以，可以在后面加个问号，将策略改为非贪婪，只匹配尽量少的RE。

例子，两者的区别：

复制代码代码示例:

>>> re.findall('<(.*)>', '<H1>title</H1>')

['H1>title</H1']

>>> re.findall('<(.*?)>', '<H1>title</H1>')

['H1', '/H1']

{m}

m是一个数字，指定将前面的RE重复m次。
{m,n}
m和n都是数字，指定将前面的RE重复m到n次，例如a{3,5}匹配3到5个连续的a。注意，如果省略m，将匹配0到n个前面的RE；如果省略n，将匹配n到无穷多个前面的RE；当然中间的逗号是不能省略的，不然就变成前面那种形式了。
{m,n}?
前面说的{m,n}，也是贪婪的，a{3,5}如果有5个以上连续a的话，会匹配5个，这个也可以通过加问号改变。a{3,5}?如果可能的话，将只匹配3个a。
''
反斜杆，转义'*'，'?'等特殊字符，或者指定一个特殊序列（下面会详述）
由于之前所述的原因，强烈建议用raw字符串来表述正则。
[]
方括号，用于指定一个字符的集合。可以单独列出字符，也可以用'-'连接起止字符以表示一个范围。特殊字符在中括号里将失效，比如[akm$]就表示字符'a'，'k'，'m'，或'$'，在这里$也变身为普通字符了。[a-z]匹配任意一个小写字母，[a-zA-Z0-9]匹配任意一个字母或数字。如果你要匹配']'或'-'本身，你需要加反斜杆转义，或者是将其置于中括号的最前面，比如[]]可以匹配']'
你还可以对一个字符集合取反，以匹配任意不在这个字符集合里的字符，取反操作用一个'^'放在集合的最前面表示，放在其他地方的'^'将不会起特殊作用。例如[^5]将匹配任意不是'5'的字符；[^^]将匹配任意不是'^'的字符。
注意：在中括号里，+、*、(、)这类字符将会失去特殊含义，仅作为普通字符。反向引用也不能在中括号内使用。
'|'
管道符号，A和B是任意的RE，那么A|B就是匹配A或者B的一个新的RE。任意个数的RE都可以像这样用管道符号间隔连接起来。这种形式可以被用于组中（后面将详述）。对于目标字符串，被'|'分割的RE将自左至右一一被测试，一旦有一个测试成功，后面的将不再被测试，即使后面的RE可能可以匹配更长的串，换句话说，'|'操作符是非贪婪的。要匹配字面意义上的'|'，可以用反斜杆转义：|，或是包含在反括号内：[|]。
(...)
匹配圆括号里的RE匹配的内容，并指定组的开始和结束位置。组里面的内容可以被提取，也可以采用number这样的特殊序列，被用于后续的匹配。要匹配字面意义上的'('和')'，可以用反斜杆转义：(、)，或是包含在反括号内：[(]、[)]。
(?...)
这是一个表达式的扩展符号。'?'后的第一个字母决定了整个表达式的语法和含义，除了(?P...)以外，表达式不会产生一个新的组。下面介绍几个目前已被支持的扩展：
(?iLmsux)
'i'、'L'、'm'、's'、'u'、'x'里的一个或多个字母。表达式不匹配任何字符，但是指定相应的标志：re.I(忽略大小写)、re.L(依赖locale)、re.M(多行模式)、re.S(.匹配所有字符)、re.U(依赖Unicode)、re.X(详细模式)。关于各个模式的区别，下面会有专门的一节来介绍的。使用这个语法可以代替在re.compile()时或者调用时指定flag参数。
例如，上面举过的例子，可以改写成这样（和指定了re.MULTILINE是一样的效果）：
>>> re.findall('(?m)(foo.$)', 'foo1nfoo2n')
['foo1', 'foo2']

另外，还要注意(?x)标志如果有的话，要放在最前面。
(?:...)
匹配内部的RE所匹配的内容，但是不建立组。
(?P<name>...)
和普通的圆括号类似，但是子串匹配到的内容将可以用命名的name参数来提取。组的name必须是有效的python标识符，而且在本表达式内不重名。命名了的组和普通组一样，也用数字来提取，也就是说名字只是个额外的属性。
演示：

复制代码代码示例:

>>> m=re.match('(?P<var>[a-zA-Z_]w*)', 'abc=123')

>>> m.group('var')

'abc'

>>> m.group(1)

'abc'

(?P=name)

匹配之前以name命名的组里的内容。
演示：

复制代码代码示例:

>>> re.match('<(?P<tagname>w*)>.*</(?P=tagname)>', '<h1>xxx</h2>')  #这个不匹配

>>> re.match('<(?P<tagname>w*)>.*</(?P=tagname)>', '<h1>xxx</h1>')  #这个匹配

<_sre.SRE_Match object at 0xb69588e0>

(?#...)
注释，圆括号里的内容会被忽略。
(?=...)
如果 ... 匹配接下来的字符，才算匹配，但是并不会消耗任何被匹配的字符。例如 Isaac (?=Asimov) 只会匹配后面跟着 'Asimov' 的 'Isaac '，这个叫做“前瞻断言”。
(?!...)
和上面的相反，只匹配接下来的字符串不匹配 ... 的串，这叫做“反前瞻断言”。
(?<=...)
只有当当前位置之前的字符串匹配 ... ，整个匹配才有效，这叫“后顾断言”。字符串'abcdef'可以匹配正则(?<=abc)def，因为会后向查找3个字符，看是否为abc。所以内置的子RE，需要是固定长度的，比如可以是abc、a|b，但不能是a*、a{3,4}。注意这种RE永远不会匹配到字符串的开头。举个例子，找到连字符（'-'）后的单词：

复制代码代码示例:

>>> m = re.search('(?<=-)w+', 'spam-egg')

>>> m.group(0)

'egg'

(?<!...)
同理，这个叫做“反后顾断言”，子RE需要固定长度的，含义是前面的字符串不匹配 ... 整个才算匹配。
(?(id/name)yes-pattern|no-pattern)
如有由id或者name指定的组存在的话，将会匹配yes-pattern，否则将会匹配no-pattern，通常情况下no-pattern也可以省略。例如：(<)?(w+@w+(?:.w+)+)(?(1)>)可以匹配 '<user@host.com>' 和 'user@host.com'，但是不会匹配 '<user@host.com'。
下面列出以''开头的特殊序列。如果某个字符没有在下面列出，那么RE的结果会只匹配那个字母本身，比如，$只匹配字面意义上的'$'。
number
匹配number所指的组相同的字符串。组的序号从1开始。例如：(.+) 1可以匹配'the the'和'55 55'，但不匹配'the end'。这种序列在一个正则表达式里最多可以有99个，如果number以0开头，或是有3位以上的数字，就会被当做八进制表示的字符了。同时，这个也不能用于方括号内。
A
只匹配字符串的开始。
b
匹配单词边界（包括开始和结束），这里的“单词”，是指连续的字母、数字和下划线组成的字符串。注意，b的定义是w和W的交界，所以精确的定义有赖于UNICODE和LOCALE这两个标志位。
B
和b相反，B匹配非单词边界。也依赖于UNICODE和LOCALE这两个标志位。
d
未指定UNICODE标志时，匹配数字，等效于：[0-9]。指定了UNICODE标志时，还会匹配其他Unicode库里描述为字符串的符号。便于理解，举个例子（好不容易找的例子啊，呵呵）：
#u2076和u2084分别是上标的6和下标的4，属于unicode的DIGIT

复制代码代码示例:

>>> unistr = u'u2076u2084abc'

>>> print unistr

??abc

>>> print re.findall('d+', unistr, re.U)[0]

??

D
和d相反，不多说了。
s
当未指定UNICODE和LOCALE这两个标志位时，匹配任何空白字符，等效于[ tnrfv]。如果指定了LOCALE，则还要加LOCALE相关的空白字符；如果指定了UNICODE，还要加上UNICODE空白字符，如较常见的空宽度连接空格（uFEFF）、零宽度非连接空格(u200B)等。
S
和s相反，也不多说。
w
当未指定UNICODE和LOCALE这两个标志位时，等效于[a-zA-Z0-9_]。当指定了LOCALE时，为[0-9_]加上当前LOCAL指定的字母。当指定了UNICODE时，为[0-9_]加上UNICODE库里的所有字母。
W
和w相反，不多说。
Z
只匹配字符串的结尾。

匹配之搜索
python提供了两种基于正则表达式的操作：匹配（match）从字符串的开始检查字符串是否个正则匹配。而搜索（search）检查字符串任意位置是否有匹配的子串（perl默认就是如此）。

注意，即使search的正则以'^'开头，match和search也还是有许多不同的。

复制代码代码示例:

>>> re.match("c", "abcdef")  # 不匹配

>>> re.search("c", "abcdef") # 匹配

<_sre.SRE_Match object at ...>

模块的属性和方法
re.compile(pattern[, flags])
把一个正则表达式pattern编译成正则对象，以便可以用正则对象的match和search方法。
得到的正则对象的行为（也就是模式）可以用flags来指定，值可以由几个下面的值OR得到。
以下两段内容在语法上是等效的：

复制代码代码示例:

prog = re.compile(pattern)

result = prog.match(string)

result = re.match(pattern, string)

区别是，用了re.compile以后，正则对象会得到保留，这样在需要多次运用这个正则对象时，效率会有较大的提升。再用上面用过的例子来演示一下，用相同的正则匹配相同的字符串，执行100万次，就体现出compile的效率了（数据来自我那1.86G CPU的神舟本本）：

复制代码代码示例:

>>> timeit.timeit(

...     setup='''import re; reg = re.compile('<(?P<tagname>w*)>.*</(?P=tagname)>')''',

...     stmt='''reg.match('<h1>xxx</h1>')''',

...     number=1000000)

1.2062149047851562

>>> timeit.timeit(

...     setup='''import re''',

...     stmt='''re.match('<(?P<tagname>w*)>.*</(?P=tagname)>', '<h1>xxx</h1>')''',

...     number=1000000)

4.4380838871002197

re.I
re.IGNORECASE

让正则表达式忽略大小写，这样一来，[A-Z]也可以匹配小写字母了。此特性和locale无关。
re.L
re.LOCALE
让w、W、b、B、s和S依赖当前的locale。
re.M
re.MULTILINE
影响'^'和'$'的行为，指定了以后，'^'会增加匹配每行的开始（也就是换行符后的位置）；'$'会增加匹配每行的结束（也就是换行符前的位置）。
re.S
re.DOTALL
影响'.'的行为，平时'.'匹配除换行符以外的所有字符，指定了本标志以后，也可以匹配换行符。
re.U
re.UNICODE
让w、W、b、B、d、D、s和S依赖Unicode库。
re.X
re.VERBOSE
运用这个标志，你可以写出可读性更好的正则表达式：除了在方括号内的和被反斜杠转义的以外的所有空白字符，都将被忽略，而且每行中，一个正常的井号后的所有字符也被忽略，这样就可以方便地在正则表达式内部写注释了。也就是说，下面两个正则表达式是等效的：

复制代码代码示例:

a = re.compile(r"""d +  # the integral part

                   .    # the decimal point

                   d *  # some fractional digits""", re.X)

b = re.compile(r"d+.d*")

re.search(pattern, string[, flags])

扫描string，看是否有个位置可以匹配正则表达式pattern。如果找到了，就返回一个MatchObject的实例，否则返回None，注意这和找到长度为0的子串含义是不一样的。搜索过程受flags的影响。
re.match(pattern, string[, flags])

如果字符串string的开头和正则表达式pattern匹配的话，返回一个相应的MatchObject的实例，否则返回None
注意：要在字符串的任意位置搜索的话，需要使用上面的search()。
re.split(pattern, string[, maxsplit=0])

用匹配pattern的子串来分割string，如果pattern里使用了圆括号，那么被pattern匹配到的串也将作为返回值列表的一部分。如果maxsplit不为0，则最多被分割为maxsplit个子串，剩余部分将整个地被返回。

复制代码代码示例:

>>> re.split('W+', 'Words, words, words.')

['Words', 'words', 'words', '']

>>> re.split('(W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split('W+', 'Words, words, words.', 1)

['Words', 'words, words.']

1/2 1 2 下一页尾页

上一篇：python编程实例之正则表达式
下一篇：Python正则表达式re模块操作指南

与 python正则表达式re模块用法详解有关的文章

本文标题：python正则表达式re模块用法详解
本页链接：http://www.jb200.com/article/python/21608.html

浏览排行

栏目分类

热点文章

python正则表达式re模块用法详解