纯代码实现WordPress记录搜索引擎蜘蛛爬行记录

在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况。对于网站的内容是否能够及时的收录,都是我们站…

在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况。对于网站的内容是否能够及时的收录,都是我们站长每天都在关注的东西,毕竟每天产出的东西有限,所更加的关注自己写的内容是否能够讨的百度蜘蛛的欢心,好及时收录自己的网页,毕竟早一天收录,这样获得流量的可能性就会更多一点,那样的话,以后变现的成本也会变得更低。

有时候当我们不知道蜘蛛什么时候来过我们的网站的时候,只能够通过一遍又一遍的向百度提交自己网站最近产生的新鲜内容。但是又害怕这样会让百度的蜘蛛讨厌我们的网站,总之那种感觉啊,不是太好。

每次打开服务器端访问日志查看非常麻烦,特别是当日志文件比较大时更是不便。最好的办法就是在线直接打开看蜘蛛爬行记录。为此,我们可以免插件使用纯 PHP 代码来实现这个功能,以下是具体实现代码。

  1. // 记录蜘蛛访问记录 
  2.     function get_naps_bot(){ 
  3.     $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); 
  4.     if (strpos($useragent, 'googlebot') !== false){ 
  5.     return 'Googlebot'; 
  6.     } 
  7.     if (strpos($useragent, 'bingbot') !== false){ 
  8.     return 'Bingbot'; 
  9.     } 
  10.     if (strpos($useragent, 'slurp') !== false){ 
  11.     return 'Yahoobot'; 
  12.     } 
  13.     if (strpos($useragent, 'baiduspider') !== false){ 
  14.     return 'Baiduspider'; 
  15.     } 
  16.     if (strpos($useragent, 'sogou web spider') !== false){ 
  17.     return 'Sogouspider'; 
  18.     } 
  19.     if (strpos($useragent, 'haosouspider') !== false){ 
  20.     return 'HaosouSpider'; 
  21.     } 
  22.     if (strpos($useragent, 'yodaobot') !== false){ 
  23.     return 'YodaoBot'; 
  24.     } 
  25.     return false; 
  26.     } 
  27.     function nowtime(){ 
  28.     date_default_timezone_set('Asia/Shanghai'); 
  29.     $date=date("Y-m-d G:i:s"); 
  30.     return $date; 
  31.     } 
  32.     $searchbot = get_naps_bot(); 
  33.     if ($searchbot) { 
  34.     $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); 
  35.     $url=$_SERVER['HTTP_REFERER']; 
  36.     $addr=$_SERVER['REMOTE_ADDR']; 
  37.     $file="robotslogs.txt"; //根目录下记录蜘蛛访问的文件
  38.     $time=nowtime(); 
  39.     $data=fopen($file,"a"); 
  40.     $PR="$_SERVER[REQUEST_URI]"; 
  41.     fwrite($data,"[$time] - $addr - $PR - $searchbot $tlc_thispage rn"); 
  42.     fclose($data); 
  43.     }

将以上代码插入 funtion.php 文件,并在网站根目录下创建一个名为 robotslogs.txt 的文件即可,文件名可自定义。注意需为 robotslogs.txt 设置可写权限,最好是 777 权限,755 权限某些主机配置下可能存在无法写入的情况。以上代码能记录搜索蜘蛛的基本抓取信息,完成以后,一般 24 小时候,就可以看到你“robotslogs.txt”当中已经满是数据的了。

类别:WordPress教程

本文收集自互联网,转载请注明来源。
如有侵权,请联系 wper_net@163.com 删除。

评论 (0)COMMENT

登录 账号发表你的看法,还没有账号?立即免费 注册