PUBLICIDADE
Este código tem nota
10

Autor

netossf

Francisco Soares de Souza Neto

membro deste março de 2007

Tags

Compartilhe e guarde

  • Rec6
  • StumbleUpon
  • ueba
  • linkk
  • dihitt
  • linkloko
  • linkto
  • Technorati
  • Simpy
  • del.icio.us
  • Faves: Fave It!

PUBLICIDADE

Enquete

A quanto tempo você já é desenvolvedor?

Desativando mecanismos de busca usando robots.txt


O arquivo robots.txt já é um padrão utilizado no mundo inteiro para declarar aos mecanismos de busca o que eles não devem indexar em um site. Esta é uma técnica "antiga", mas ainda muito útil e que mesmo assim, muitos ainda desconhecem. Este texto é uma compilação das anotações que tenho feito sobre a utilização de robots.txt e que podem ser úteis para qualquer pessoa que queira esconder qualquer coisa que esteja disponível na web mas que por uma razão ou outra deve ser privada e não indexada pelos mecanismos de buscas.

A primeira coisa que você deve saber é que robots.txt não é usado para indicar o que os mecanismos de buscas DEVEM indexar e sim o que NÃO DEVEM! Você vai precisar usar robots.txt, por exemplo, em uma intranet que funcione na web e que pode conter informações que dizem respeito exclusivamente a uma empresa. Áreas restritas, documentos pessoais que são armazenados no seu servidor em uma determinada pasta e que só estão lá por backup ou para compartilhar informações entre um pequeno grupo etc, são contextos possíveis em que os mecanismos de buscas não devem indexar o conteúdo.

Se você quer que o Google ou qualquer outro mecanismo de busca indexe todo o seu conteúdo, você não precisa usar robots.txt. Mesmo que isso pareça óbvio, muitas pessoas se enganam sobre a utilização deste recurso.
Você precisa tomar alguns cuidados ao criar um arquivo de robots.txt como:

robots.txt é apenas um arquivo de texto que pode ser criado no notepad ou qualquer outro editor de texto ASCII e que salve com a extensão .txt. Lembre-se que não pode ser um html, tem que ser um txt.

Este arquivo deve ficar na raiz do seu site.

O nome do arquivo deve ser todo em letras minúsculas (lowercase) e nunca com letras maiúsculas. Ou seja, para qualquer site que queira implementar ele deverá se chamar robots.txt

Basicamente existem duas regras a serem declaradas neste arquivo. O User-Agent e o Disallow.

A regra "User-Agent" é usada para declarar um user agent específico. Um user-agent neste contexto é um mecanismo de busca como por exemplo o Googlebot:

User-Agent: Googlebot

Se quiser que todos os user agents (e não somente o robô do Google) indexe o conteúdo, use asterisco como valor de User-Agent. Dessa forma você informa que todos os mecanismos de busca não devem indexar:

User-Agent: *

A regra Disallow é usada para indicar quais os locais onde os mecanismos de busca não devem "entrar".

Para bloquear um site inteiro use uma barra como no exemplo abaixo:

Disallow: /

Para bloquear um diretório específico, use o nome do diretório entre barras como no exemplo:

Disallow: /private_directory/

Para bloquear uma página específica, use uma barra e o nome do arquivo.

Disallow: /private_file.html

Você pode usar quantas regras Disallow você quiser. Basta apenas iniciar outra linha. Lembre-se que urls são case sensitive. Se você tem um arquivo de html chamado Teste.html e no valor de Disallow coloca "teste.html", o mecanismo de busca não vai considerar ambos como sendo o mesmo arquivo.

Em alguns casos, você pode querer declarar para os mecanismos de busca que não sigam determinada página na própria página utilizando a meta tag nofollow da seguinte maneira:

<meta name="robots" content="nofollow">

Com robots.txt você tem controle do que não deve ser indexado em uma escala maior do que a meta tag nofollow. De qualquer maneira ambas as soluções tem exatamente o mesmo objetivo: impedir com que mecanismos de busca indexem o conteúdo referenciado.

Sim   Não   Este código foi útil para você?
NotaComentário
10
usertop comentou em 3/10/2009

Bom

bem explicado so falta testar e ver se da certo
Regras:
Os comentários seguem as seguintes regras:
  • Todos os comentários são enviados por membros cadastrados no site.
  • A pontuação de comentários de conteúdo do próprio membro não serão computados.
  • Os comentários serão pré-aprovados, porém a equipe do site revisará o conteúdo de todos os comentários podendo ser invalidados (inclusive a pontuação).
  • Os comentários precisam ter, obrigatóriamente, coerência sobre o conteúdo que será comentado.
  • O membro que atingir 5 comentários invalidados não poderá mais comentar dentro do site. Com isso o membro não poderá mais ganhar pontos com comentários.
  • Há um limite de 10 comentários por dia para cada membro.
  • Qualquer comentário após ter sido publicado poderá ser retirado através da opção ( denunciar)

Comente

     (ainda não tem cadastro? clique aqui!)


Máximo de 30 caracteres

Máximo de 255 caracteres
 

R&W Consulting - Soluções Web Hospedagem UOL HOST PagSeguro - solução para pagamentos online
© 2006-2009 R&W Informática Ltda. - Todos os direitos reservados.