shell脚本查找网站空页面与404错误页面

发布时间:2020-02-06编辑:脚本学堂
如何用shell脚本查找网站中所有的空页面与404错误页面,可以参考下这里提供的shell脚本,空白页与404页会影响网站收录,影响网站权重,务必要重视。

shell/ target=_blank class=infotextkey>shell脚本找出网站的空页面和404错误页面
 
问题描述:
提交sitemap时百度老提示有错误的URL,导致sitemap不能正常被抓取。

如何用shell批量找出网站空页面和404错误页面,shell脚本代码:
 

time cat sitemap.txt|while read line;do curl -l $line -m 5 --connect-timeout 5 -o /dev/null -s -w "$line "%{http_code}" "%{size_download}"n";done

代码说明:

1、time是为了看看代码执行所花的时间

2、%{http_code} 返回HTTP状态码,通过这个状态码即可判断出该链接是正常的200链接,还是404错误链接;

3、%{size_download} 返回当前页面的大小,如果值太小的话,说明这些页面很有可能是低质量的空页面,需要想办法剔除掉。