PHP函数strip_tags(去除html)的bug

发布时间:2020-09-12编辑:脚本学堂
在php中,strip_tags用于去除html标记,不过它有个bug,大家可以参考看看。

PHP 函数 strip_tags 提供了从字符串中去除 HTML 和 PHP 标记的功能,该函数尝试返回给定的字符串 str 去除空字符、HTML 和 PHP 标记后的结果。

由于 strip_tags() 无法实际验证 HTML,不完整或者破损标签将导致更多的数据被删除。

代码:
<div>string</div>string<string<b>hello</b><div>string</div>
通过 strip_tags($str, ‘<div>’) 过滤,我们可能期望得到如下结果:

<div>string</div>string<stringhello<div>string</div>

而实际操作结果:
<div>string</div>string
这一切都是因为加红的那个左尖括号,查了 PHP 的文档,有一个警告提示:

由于 strip_tags() 无法实际验证 HTML,不完整或者破损标签将导致更多的数据被删除。

既然在执行过滤前无法验证代码正确性,遇到和标签相关的字符 “<” 或 “>” 后面的代码就全挂了!

2013.01.11 更新:
以下方法可以解决该问题,但可能在 HTML 数据过大时,存在一定的效率问题,慎用!
 

复制代码 代码示例:
<?php
//解决strip_tags的bug
function fixtags ($text) {
$text = htmlspecialchars($text);
$text = preg_replace("/&quot;/", "&quot;"", $text);
$tags = "/&lt;(!|)(/|)(w*)( |)(w*)([=]*)(?|(")"&quot;"|)(?|(.*)?&quot;(")|)([ ]?)(/|)&gt;/i";
$replacement = "<$1$2$3$4$5$6$7$8$9$10$11>";
$text = preg_replace($tags, $replacement, $text);
$text = preg_replace("/=""/", "=", $text);
$text = preg_replace("/&quot;"/", """, $text);
return $text;
}

使用方法:
 

复制代码 代码示例:
strip_tags(fixtags($string), '<div>');