说明:
html中的空行,一般可能的情况为:
空标签组成的例如<p></p>或<div> </div>或<p><font> </font></p>。
在python中,替换类似的内容,需要使用python的正则表达式。
相关文章可以参考:
python正则表达式re模块的用法详解
python清除字符串中非数字字符(python正则实例)
python清除字符串中非字母字符(python正则表达式)
Python使用正则表达式验证Url地址的例子
python将正则后的分组倒过来的一段代码
Python 正则表达式之 re 模块的使用
接下来,我们介绍今天的例子,有兴趣的朋友参考下。
代码:
#!/bin/python
# site: www.jb200.com
#
__author__ = 'yukaizhao post @ http://jb200.com/'
import re
def remove_empty_tag(input):
pattern = re.compile(r'<([a-z]+d?)b[^>]*>( |[s ])*</1>',re.IGNORECASE)
maxLoopTimes = 10
i = 0
while i < maxLoopTimes:
tem = pattern.sub('',input)
if tem == input:
input = tem
break
else:
input = tem
i += 1
return input
if __name__ == '__main__':
output = remove_empty_tag('<div>nt </div>hello')
print output
output = remove_empty_tag('<div><span> </span></div>hello world')
print output
输出:
hello
hello world
空行去掉了。