Olá galerinha,

Esses dias tenho recebido algumas perguntas sobre como melhorar mais o Robots.txt em relação ao SEO do site. Calma ai! Antes temos que entender melhor como funciona e qual a função dele.

Os robôs dos buscadores são aplicativos que navegam pela internet através dos links encontrados nas páginas do site, em busca do conteúdo que vai ser indexado e exibido nos resultados dos buscadores. Porém, você pode escolher algumas particularidades, por exemplo não ter algumas páginas exibidas nos resultados das buscas (login, conteúdo repetido e etc).

Então, Robots.txt é um arquivo com formato de texto, que funciona como filtro para os robôs dos sites de busca e faz com que os Developers controlem as permissões de acesso a determinadas páginas ou pastas dos sites. Eles controlam as informações que um site deve ou não ter indexada pelos sites de busca. Apesar de ser bem simples ele tem que ser bem configurado e colocado no repositório raiz da hospedagem.

O arquivo robots.txt tem o papel de criar diretrizes de acesso aos Robots. Para a execução dessas tarefas, há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não os acessos a determinados diretórios ou páginas de um site.

Vamos listar aqui os principais comandos robot.txt:

User-agent

Essa função é responsável por listar quais robôs devem seguir as regras indicadas nos arquivos robots.txt. Se você deseja somente que o mecanismo de busca do Google siga as definições definidas no arquivo robots.txt, basta o user-agent ser indicado como Googlebot.

Principais opções:

  • Google: User-agent: Googlebot
  • Google Imagens: User-agent: Googlebot-images
  • Google Adwords: User-agent: Mediapartnes-Google
  • Yahoo: User-agent: Slurp
  • Todos os mecanismos: Usar-agent: *(ou simplesmente não incluir o comando user-agent)

Disallow

O comando instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice.

  • Disallow: /prod – orienta aos robots a não indexarem pastas ou arquivos que comecem com “prod”;
  • Disallow: /prod/ – orienta aos robots a não indexarem conteúdo dentro da pasta “prod”
  • Disallow: print.html – orienta aos robots a não indexarem conteúdo da página print.html

Allow

Esse comando Allow, orienta ao robots qual o diretório ou página que deve ter o conteúdo indexado nos buscadores. Lembrando, diretórios e páginas são por definição sempre permitidos. Ele deve ser usado apenas em situações que o Developer bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter o indexado um arquivo ao sub-diretório dentro do diretório bloqueado. Note por exemplo no robots.txt do Google, lono no início, as duas linhas abaixo. O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.

Disallow: /catalogs

Allow: /catalogs/about

Sitemap

Uma outra função permitia pelo robots.txt é a indicação do caminho e nome do sitemap em formato XML do site. A ferramenta para Developers do Google, porém, oferece um maior controle e visibilidade para a mesma função – comunicar ao Google onde está o ou os arquivos sitemap. Note como o Google submete, em seu robots.txt, diversos sitemaps:

Sitemap: http://www.google.com/hostednews/sitemap_index.xml   Sitemap: http://www.google.com/sitemaps_webmasters.xml   Sitemap: http://www.google.com/ventures/sitemap_ventures.xml   Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml   Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml   Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml   Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Devemos ter cuidados com o que é incluído nesse arquivo, pois é fácil, muito fácil acessar o conteúdo dos arquivos robots.txt de qualquer site, inclusive de concorrentes. Evite colocar arquivos confidenciais. Nesses casos, o ideal é utilizar a meta tag robots (meta name = “robots” ).

  Google – www.google.com.br/robots.txt – alguns sites interessantes listados

  Facebook – www.facebook.com/robots.txt – Veja como este sitemap utiilza áreas separadas para cada Bot (mas sem necessidade, visto que os comandos parecem ser os mesmos para todos)

  Casa Branca – www.whitehouse.gov/robots.txt – note a correta utilização do comando Disallow para remover áreas de login, como Disallow: /user/password/ e Disallow: /user/login/

  Abradi – www.abradi.com.br/robots.txt – Bloqueia acesso às áreas administrativas do WordPress

  COB – www.cob.org.br/robots.txt – Bloqueia o acesso a uma área de uploads, provavelmente de arquivos submetidos por usuários

 

Texto por Tiago Serra (ByCreator)