Noções básicas de sintaxe do Robots.txt
Robots.txt é um arquivo de texto localizado no diretório raiz do site que especifica para rastreadores e spiders de mecanismos de pesquisa quais páginas e arquivos do site você deseja ou não que eles visitem. Normalmente os proprietários de sites se esforçam para serem notados pelos motores de busca, mas há casos em que isso não é necessário: por exemplo, se você armazena dados confidenciais ou se deseja economizar largura de banda ao não indexar páginas pesadas com imagens.
Posição oficial do Google no arquivo Robot.txt:
Quando um rastreador acessa um site, um arquivo chamado '/robots.txt' é solicitado primeiro. Se esse arquivo for encontrado, o rastreador o verificará em busca de instruções de indexação do site.
NOTA: Só pode haver um arquivo robots.txt para o site. Um arquivo robots.txt para um domínio adicional deve ser colocado na raiz do documento correspondente.
Posição oficial do Google no arquivo robots.txt
Um arquivo robots.txt consiste em linhas contendo dois campos: uma linha com um nome de agente de usuário (rastreadores de mecanismo de pesquisa) e uma ou mais linhas começando com a diretiva
Proibir:
Robots.txt deve ser criado no formato de texto UNIX.
Noções básicas de sintaxe do Robots.txt
Normalmente, um arquivo robots.txt contém algo assim:
Agente de usuário: *
Proibir: /cgi-bin/
Proibir: /tmp/
Proibir: /~diferente/
Neste exemplo, três diretórios: '/cgi-bin/', '/tmp/' e '/~diferente/' são excluídos da indexação.
NOTA: Cada diretório é escrito em uma linha separada. Você não pode escrever 'Não permitir: /cgi-bin/ /tmp/' em uma linha, nem pode dividir uma diretiva Não permitir ou Agente do usuário em várias linhas: use uma nova linha para separar as diretivas umas das outras.
"Star" (*) no campo User-agent significa "qualquer rastreador da web". Conseqüentemente, diretivas como 'Não permitir: * .gif' ou 'User-agent: Mozilla *' não são suportadas; Preste atenção aos erros lógicos, pois são os mais comuns. Outros erros comuns são erros de digitação: diretórios com erros ortográficos, agentes de usuário, pontos ausentes após agente de usuário e rejeição, etc. Quando seus arquivos robots.txt se tornam cada vez mais complicados e é fácil introduzir um erro, existem algumas validações.
Exemplos de uso
Aqui estão alguns exemplos úteis de uso do robots.txt:
Impedir a indexação de todo o site por todos os rastreadores da web:
Agente de usuário: *
Proibir: /
Permitir que todos os rastreadores da web indexem o site inteiro:
Agente de usuário: *
Permitir:
Evite que vários diretórios sejam indexados:
Agente de usuário: *
Proibir: /cgi-bin
Impedir a indexação de sites por um rastreador da web específico:
Agente do usuário: GoogleBot
Proibir :/
Encontre a lista com os nomes de todos os agentes de usuário.
Permitir a indexação para um rastreador da Web específico e impedir a indexação de outros:
Agente do usuário: Opera 9
Permitir:
Agente de usuário: *
Proibir: /
Impedir a indexação de todos os arquivos, exceto um.
Isto é bastante difícil, uma vez que a directiva “Permitir” não existe. Em vez disso, você pode mover todos os arquivos para um determinado subdiretório e impedir que sejam indexados, exceto um arquivo que permite sua indexação:
Agente de usuário: *
Permitir: /docs/
Você também pode usar um gerador de arquivo robots.txt online.
Robots.txt e SEO
Removendo exclusão de imagem
O arquivo robots.txt padrão em algumas versões do CMS está configurado para excluir sua pasta de imagens. Este problema não ocorre em versões mais recentes do CMS, mas as versões mais antigas devem ser verificadas.
Essa exclusão significa que suas imagens não serão indexadas ou incluídas na Pesquisa de imagens do Google, o que é algo que você deseja, pois aumenta sua classificação de SEO.
Se você quiser mudar isso, abra seu arquivo robots.txt e exclua a linha que diz:
Proibir: /imagens/
Adicione referência ao seu arquivo sitemap.xml
Se você tiver um arquivo sitemap.xml (e deveria fazê-lo à medida que aumenta suas classificações de SEO), seria bom incluir a seguinte linha em seu arquivo robots.txt: (esta linha deve ser atualizada com seu nome de domínio e arquivo de mapa de site) .
mapa do site: http://www.domain.com/sitemap.xml
Observações diversas
Não bloqueie CSS, Javascript e outros arquivos de recursos por padrão. Isso impede que o Googlebot renderize a página corretamente e entenda que seu site é compatível com dispositivos móveis.
· Você também pode usar o arquivo para impedir que páginas específicas sejam indexadas, como login ou páginas 404, mas a melhor maneira de fazer isso é usar a meta tag robots.
· Adicionar declarações não permitidas a um arquivo robots.txt não exclui o conteúdo. Simplesmente bloqueia o acesso aos spiders. Se houver conteúdo que você deseja remover, é melhor usar um meta noindex.
· Como regra geral, o
O arquivo robots.txt nunca deve ser usado para lidar com conteúdo duplicado. Existem maneiras melhores, como uma tag Rel=canonical que faz parte do cabeçalho HTML de uma página da web.
· Tenha sempre em mente que o robots.txt não é sutil. Freqüentemente, há outras ferramentas à sua disposição que podem fazer um trabalho melhor, como as ferramentas de gerenciamento de parâmetros nas Ferramentas do Google e Bing para webmasters, a tag x-robots e a meta tag robots.
Robots.txt para WordPress
O WordPress cria um arquivo robots.txt virtual assim que você publica sua primeira postagem no WordPress. Embora se você já tiver um arquivo robots.txt real criado em seu servidor, o WordPress não adicionará um virtual.
Não existe nenhum arquivo robots.txt virtual no servidor, e você só pode acessá-lo através do seguinte link: http://www.yoursite.com/robots.txt
Por padrão, você terá permissão para usar o Google Mediabot, vários Spambots não permitidos e algumas pastas e arquivos padrão do WordPress não permitidos.
Portanto, caso você ainda não tenha criado um arquivo robots.txt real, crie um com qualquer editor de texto e carregue-o no diretório raiz do seu servidor via FTP.
Bloqueando diretórios iniciais do WordPress
Existem 3 diretórios padrão em cada instalação do WordPress: wp-content, wp-admin, wp-includes que não precisam ser indexados.
No entanto, não opte por proibir toda a pasta wp-content, pois ela contém uma subpasta ‘uploads’ com os arquivos de mídia do seu site que você não deseja bloquear. É por isso que você deve proceder da seguinte forma:
Proibir: /wp-admin/
Proibir: /wp-includes/
Permitir: /wp-content/plugins/
Permitir: /wp-content/themes/
Bloqueie com base na estrutura do seu site
Cada blog pode ser estruturado de várias maneiras:
a) Com base nas categorias
b) Com base em rótulos
c) Com base em ambos: nenhum dos
d) Com base em arquivos baseados em data
a)Se o seu site for estruturado por categorias, você não precisa indexar os arquivos de tags. Encontre sua base de tags na página de opções de links permanentes no menu Configurações. Se o campo for deixado em branco, a base da tag será simplesmente 'tag':
Proibir: /tag/
b) Se o seu site for estruturado por tags, você deve bloquear os arquivos de categoria. Encontre a base da sua categoria e use a seguinte diretiva:
Proibir: /categoria/
c) Se você usar categorias e tags, não precisará usar nenhuma diretiva. Se você não usa nenhum deles, você deve bloqueá-los:
Proibir: /tags/
Proibir: /categoria/
d)Se o seu site estiver estruturado com base em arquivos baseados em datas, você poderá bloqueá-los das seguintes maneiras:
Proibir:/2022/
NOTA: Você não pode usar Disallow: /20*/ tal diretiva bloqueará todas as postagens de blog ou páginas que comecem com o número '20'.
Problemas de conteúdo duplicado no WordPress
Por padrão, o WordPress tem páginas duplicadas que não ajudam em nada a sua classificação de SEO. Para corrigir isso, recomendamos que você não use o robots.txt, mas sim uma tag mais sutil: a tag 'rel=canonical' que você usa para colocar o único URL canônico correto na seção do seu site. Dessa forma, os rastreadores da web rastrearão apenas a versão canônica de uma página.