搜索引擎的蜘蛛会不断爬行互联网数据,如果网站没有做出防止搜索引擎抓取的操作,就很容易被搜索引擎收录,这篇文章主要讲解如何防止百度,360等搜索引擎收录网站内容。
方法一:robots.txt
搜索引擎的蜘蛛spider在访问网站的时候,首先会检查该网站的根域下是否存在有 robots.txt的纯文本文件,这个文件的作用是用来告诉spider在您网站上的抓取范围。
User-agent:*表示和所有搜索引擎协议适用;
Disallow:/表示禁止抓取收录全站。
禁止所有内容:
User-agent: *
Disallow: /
禁止访问网站的所有部分:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /admin/
方法二:网页代码方法
<meta name="robots" content="noarchive">
<meta name="Baiduspider" content="noarchive">
方法三:判断访问来源
备注: