• 陪伴互联网运营小白共同探索成长,与IT爱好者共享探索乐趣
  • 建站只为分享,欢迎在PC端文章面打赏支持
  • 使用Ctrl+D 可收藏本站

不想网站被别人看到?如何禁止百度谷歌等搜索引擎收录网站

好玩有趣 陆子方 5年前 (2019-11-15) 1890次浏览 0个评论 扫描二维码
文章目录[隐藏]

子方有话

做网站的人都巴不到自己的站点早点被搜索引擎收录,但有一些需求确实是不同的,比如有人自己写博客纯粹是为了自己玩,还有很多公司的系统登录页面也不需要被收录。如何避免百度谷歌等搜索引擎好心办坏事把自己的站点收录呢?陆子方建议从robots.txt和站点配置文件conf两方面进行处理。

什么是 robots.txt

robots.txt 文件规定了搜索引擎抓取工具可以/无法请求抓取您网站上的哪些网页或文件,此文件主要用于使您的网站避免收到过多请求,即可告诉搜索引擎不要抓取采取收录本网站。

torobots.txt 文件禁止搜索引擎爬取

robots.txt 文件的作用是管理流向您网站的抓取工具流量,通常用于阻止 Baidu、Google 等搜索引擎访问某个网页(具体取决于文件类型)

和陆子方一样,创建robots.txt文本文件放至网站根目录下,编辑代码如下:

User-agent: *
Disallow: /

robots.txt文件局限性

须知,robots.txt文件并不是一种用于阻止 Baidu、Google 等搜索引擎访问某个网页的机制,若想阻止搜索 访问某个网页,应使用 noindex 指令,或者使用密码来保护该网页。

最具有代表性的是,s.taobao.com的robots.txt文件声明不要抓取,但搜索引擎也一样收录了这一个页面。

此前子方曾试过用tk等免费域名指向wordpress,并在wordpress中设置建议搜索引擎不要抓取。没过多久,这个没有内容的wordpress站点首页还是进入了Google搜索引擎。

可见,robots.txt文件只能确保搜索引擎不会爬取网站内容,首页还是可能被收录的。

对搜索蜘蛛进行重定向

找到你的站点配置文件,如果你和陆子方一样使用的lnmp一键包,那文件应该位于以下路径:/usr/local/nginx/conf/vhost。

在站点文件中,增加以下内容重启,换句话说,就是一旦有蜘蛛访问,就返回403错误,这样搜索引擎就抓取失败了。

if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")
        {
                return 403;
        }

子方有料原创丨转载请注明原文链接
期待您的评论或捐赠,这是最好的鼓励和支持!
喜欢 (2)
[赞赏使我快乐]
分享 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到