shell/ target=_blank class=infotextkey>shell脚本找出网站的空页面和404错误页面
问题描述:
提交sitemap时百度老提示有错误的URL,导致sitemap不能正常被抓取。
如何用shell批量找出网站空页面和404错误页面,shell脚本代码:
代码说明:
1、time是为了看看代码执行所花的时间
2、%{http_code} 返回HTTP状态码,通过这个状态码即可判断出该链接是正常的200链接,还是404错误链接;
3、%{size_download} 返回当前页面的大小,如果值太小的话,说明这些页面很有可能是低质量的空页面,需要想办法剔除掉。