apache查看网络爬虫日志的方法

发布时间:2019-08-01编辑:脚本学堂
本文介绍下,在apache服务器中查看网络爬虫日志记录的方法,有需要的朋友参考下。

问题:在apache/ target=_blank class=infotextkey>apache服务器中查看哪些网站的蜘蛛爬过自己的网站,或者哪些IP访问过?

解答:
通过Apache服务器的访问日志记录!
Apache服务器的访问日志名称在linux下默认叫做access_log。
在windows下是access.log文件。

配置方法,在httpd.conf文件中配置添加:             
 

LogFormat "%h %l %u %t "%r" %>s %b" common
CustomLog /home/admin/work/hz-jean/com.jean.deploy/logs/access_log common
 

第一然,定义日志的格式;第二句话,定义日志的存放地点。

旧版本的(2.0以前的)Apache可能不用CustomerLog 而用transferLog
 

LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-agent}i""
TransferLog logs/access_log

查看访问日志 :
apache<a href=http://www.jb200.com/zt/pachong/ target=_blank class=infotextkey>爬虫</a>日志 
IP地址查询中输入前面的IP ,查询器即可帮助查到hostname了,比如百度蜘蛛,或浙江省电信等。