正则表达式
匹配所有符合规律的内容,并且返回的是一个列表 匹配第一个符合规律的内容,返回一个正则对象 替换符合规律的内容,并返回 可以得到dnot是一个占位的符号 *表答的是前面的元素出现0次或者多次所以 ?是匹配前面的字符一次或者0次 可以控制匹配h的数量 举个例子: 匹配的是1后面占位的3个符号 可以看出re.S将"."的匹配范围扩大到了换行符。原来的"."号是没有换行符的 search的group(1)表示的是第一个括号里的内容 如果有多个括号贼为多个括号里的内容 可以看出来a为一个list而如果每一个list的元素中有多个"()"则每一个list的元素为 一个tuple sub 返回的是一个字符串,并且是将原文匹配的所有改变之后的字符串 sub是将匹配的部分改变并且拼接起来 由于. 是贪婪匹配所以匹配的是整体字符串123aaa123123xxx123 替换成hello 而. ?是非贪婪所以匹配出两个并且拼接hellohello
正则表达式
本文主要内容:
正则表达式的概念,
语法,
常用正则表达式和python中的re库
正则表达式是用来简洁表达一组字符串的表达式,正则表达式是一种通用的字符串表达框架,正则表达式是具有某一类特征的一组字符串
'PY'
'PYY' ------>正则表达式:PY+
'PYYY...'
在文本处理中的应用:
>查找或替换一组字符串
>匹配字符串的部分或全部
正则表达式的语法
正则表达式由字符和操作符构成
操作符
常用的正则表达式匹配:
^[A-Za-z]+$ :由26个字母组成的字符串
^[A-Za-z0-9]+$ :由26个字母和数字组成的字符串
^-?\d+$ :整数形式的字符串
^[0-9]*[1-9]*[0-9]*$ :正整数形式的字符串
^[1-9]\d{5}$:中国境内邮政编码
[\u4e00-\u9fa5]:匹配中文字符
\d{3}-\d{8}:匹配国内电话号码010-68697314
python中Re库
Re库是Python中的标准库,主要用于字符串匹配。
调用:import re
raw string类型:原生字符串类型,不包含对转移字符串再次转移的字符串
例如:r'[1-9]\d{5}' ----> 操作符\d的斜杠为转义字符,不用原生字符串类型应该表示为\\d
re.search(pattern,string,flag=0):在字符串中搜索匹配正则表达式的第一个位置
pattern:正则表达式的字符串或原生字符串表示
string:待匹配字符串
flag:正则表达式使用时的控制标记
输出:432808
re.match(pattern,string,flag=0):从字符串的开始位置匹配,返回Match对象,参数同search()函数
输出:432808
re.findall(pattern,string,flag=0):搜索字符串返回所有能匹配的字符串,返回list,参数同search()函数
输出:['432808', '432800']
re.split(pattern,string,maxsplit=0,flag=0):搜索字符串返回所有能匹配的字符串,返回list,比search()函数多一个参数
maxsplit:最大分割数,剩余部分作为最后一个字符串
输出:['BOSTCODE_ONE:', ' ,BOSTCODE_TWO:', '']
['BOSTCODE_ONE:', ' ,BOSTCODE_TWO:432800']
re.finditer(pattern,string,flag=0):搜索字符串返回匹配结果的迭代类型,每一个元素是一个Match对象,
输出:
432808
432800
re.sub(pattern,repl,string,count=0,flag=0):搜索字符串返回匹配结果的迭代类型,每一个元素是一个Match对象,比search()函数多了两个参数
repl:替换匹配的字符串
count:匹配字符串的最大替换次数
输出:'BOSTCODE_ONE:12306 ,BOSTCODE_TWO:432800'
Re库的等价用法:
上面的用法为函数式用法:一次性操作,每次调用函数系统内部会将正则表达式字符串编译成正则表达式对象
等价用法为面向对象法:先编译正则表达式,然后用正则表达式对象来调用函数,可以多次使用,当匹配规则在多个地方使用先编译可以提高程序性能
输出:'BOSTCODE_ONE:12306 ,BOSTCODE_TWO:432800'
Re的Match对象
Match对象是一次匹配的结果,包含很多匹配信息
Match对象的属性
Match对象的方法
匹配模式
贪婪匹配:同时匹配长短不同的多项,返回长度最长的,Python默认采用这种模式
输出:'PYANBNCNDN'
最小匹配:在相应的操作符后面加?变为最小匹配模式
输出:'PYAN'
常用的最小匹配操作符