屏蔽百度蜘蛛爬虫或其他搜索引擎爬虫的四种方法

SEO优化发布时间：2022/07/27 阅读量：2549 来源：优尚设计

某些恶意的搜索引擎爬虫一天内可能会访问网站几千次，会消耗不少服务器资源，其实我们可以通过技术手段来屏蔽它，具体可以通过如下四种方法来处理

某些恶意的搜索引擎爬虫一天内可能会访问网站几千次，会消耗不少服务器资源，其实我们可以通过技术手段来屏蔽它，具体可以通过如下四种方法来处理

robots.txt屏蔽百度或某一爬虫抓取

打开robots.txt，在开头加入如下语句（以百度蜘蛛为例）：

User-agent: baiduspider
Disallow: /

代码分析，首先要知道该爬虫的名称，如百度爬虫是Baiduspider，Google爬虫是Googlebot，360搜索爬虫是360Spider，你可以通过各大搜索引擎蜘蛛爬虫UA汇总来获取爬虫的名称，例如，微软必应的蜘蛛UA是：

"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

我们就可以知道它的爬虫名称为bingbot。

如果是针对某一个页面屏蔽百度蜘蛛或某一爬虫抓取，那么可以通过Meta标签来实现。代码如下：

<head>
<meta name="robots" content="noindex,nofollow" /> 
</head>

这是屏蔽所有蜘蛛爬虫抓取该页面的写法，如果只屏蔽某个爬虫，可以把"robots"改为特定的爬虫名称，爬虫名称可以通过上面方法1中提及的办法获得。例如想只屏蔽微软必应的蜘蛛抓取该页，则可以写成：

<head>
<meta name="bingbot" content="noindex,nofollow" />
</head>

一些可恶的爬虫并不遵循robots规则，那么我们还可以通过.htaccess来屏蔽它，代码如下（以百度蜘蛛为例）：

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC]
RewriteRule .* - [F]

如果是Apache服务器，可以修改配置文件 httpd.conf ，这样写( /var/www/html 是根目录)：

<Directory "/var/www/html">
SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Directory>

如果是Nginx服务器，可以修改配置文件( 默认是 nginx.conf )，这样写：

Server{
  location / {
    if ($http_user_agent !~ Baiduspider) {
      return 403;
    }
  }
}

我们还可以通过分析日志，获得爬虫的IP地址，然后从服务器防火墙屏蔽该IP，不过爬虫通常有很多IP，我们可以屏蔽爬虫的IP段。

文章标签：可以通过搜索引擎方法几千恶意屏蔽蜘蛛消耗爬虫某些

您可能感兴趣的内容

Previous 没有了，返回列表

Next 没有了，返回列表