python替换html中空标签的例子

发布时间:2019-10-07编辑:脚本学堂
本文介绍下,python代码实现替换html内容中的空标签的例子,有需要的朋友参考下吧。

说明:
html中的空行,一般可能的情况为:
空标签组成的例如<p></p>或<div>&nbsp;</div>或<p><font>&nbsp;</font></p>。

python中,替换类似的内容,需要使用python的正则表达式

相关文章可以参考:
python正则表达式re模块的用法详解
python清除字符串中非数字字符(python正则实例)
python清除字符串中非字母字符(python正则表达式)
Python使用正则表达式验证Url地址的例子
python将正则后的分组倒过来的一段代码
Python 正则表达式之 re 模块的使用

接下来,我们介绍今天的例子,有兴趣的朋友参考下。

代码:
 

复制代码 代码示例:

#!/bin/python
# site: www.jb200.com
#
__author__ = 'yukaizhao post @ http://jb200.com/'

import re

def remove_empty_tag(input):
    pattern = re.compile(r'<([a-z]+d?)b[^>]*>(&nbsp;|[s ])*</1>',re.IGNORECASE)

    maxLoopTimes = 10
    i = 0
    while i < maxLoopTimes:
        tem = pattern.sub('',input)
        if tem == input:
            input = tem
            break
        else:
            input = tem
        i += 1

    return input

if __name__ == '__main__':
    output = remove_empty_tag('<div>nt&nbsp;&nbsp; </div>hello')
    print output

    output = remove_empty_tag('<div><span> &nbsp;  </span></div>hello world')
    print output

输出:
hello
hello world
空行去掉了。