O que é Robots.txt e o que você pode fazer com ele
Try Proseoai — it's freeO que é Robots.txt e o que você pode fazer com ele
📚 Tabela de Conteúdos
- Introdução
- O que é um arquivo robots.txt?
- Por que é importante ter um arquivo robots.txt?
- Como funciona a linguagem robots.txt
- Principais casos de uso do arquivo robots.txt
- Prevenir rastreamento de páginas de filtros e busca interna
- Prevenir rastreamento de páginas de pesquisa interna
- Prevenir rastreamento de tipos de arquivo específicos
- Bloquear todos os crawlers, exceto um específico
- Como adicionar o arquivo robots.txt ao seu site
- Como verificar erros e testar o arquivo robots.txt
- Conclusão
📝 O que é um arquivo robots.txt?
Um arquivo robots.txt é um arquivo de texto que contém regras e regulamentos para os rastreadores de mecanismos de pesquisa, como o Google Bots, Bingbots e Yandex bots, interagirem com seu site. Quando um arquivo robots.txt existe em um site, basta acessar seu domínio e adicionar "/robots.txt" para ver o conteúdo do arquivo. Normalmente, um arquivo robots.txt é usado para evitar que os mecanismos de pesquisa rastreiem certas partes do seu site, principalmente conteúdo duplicado que geralmente ocorre em sites de comércio eletrônico. No entanto, se você não precisa restringir nenhuma parte do seu site para os mecanismos de pesquisa, não precisa se preocupar muito com isso. Vamos explorar mais a fundo o uso desse arquivo.
📝 Por que é importante ter um arquivo robots.txt?
Primeiro, especialmente para sites de comércio eletrônico, onde você permite que os visitantes façam uma pesquisa de produtos ou filtrem produtos por categorias ou atributos, cada pesquisa, filtro, categoria ou atributo criará várias páginas em seu site e isso pode aumentar o orçamento de rastreamento. Isso significa que os mecanismos de pesquisa podem negligenciar a rastreamento de páginas importantes em seu site porque estão ocupados rastreando páginas que não são tão importantes, como aquelas que mencionei. Um bom exemplo disso é a Ikea, uma das maiores lojas de móveis do mundo, que tem muitos produtos em seu site. Ao visitar o arquivo robots.txt deles, você verá que eles impedem que os mecanismos de pesquisa rastreiem suas páginas de filtro e ordenação, porque são muitas. Outro motivo importante para ter um arquivo robots.txt é que você pode impedir que os mecanismos de pesquisa rastreiem certos arquivos em seu site, como imagens, PDFs, etc. Isso pode ser útil, por exemplo, quando você deseja capturar as informações de contato das pessoas antes de disponibilizar um documento. Além disso, você pode manter partes específicas do seu site privadas, impedindo que os rastreadores de pesquisa rastreiem um caminho de arquivo ou parâmetros de URL. Você também pode especificar um atraso de rastreamento para evitar a sobrecarga de seus servidores quando os rastreadores carregam vários conteúdos do seu site de uma vez. Por fim, é uma boa prática especificar a localização dos sitemaps no arquivo robots.txt para que os mecanismos de pesquisa possam encontrá-los facilmente. Agora que entendemos o que podemos fazer com um arquivo robots.txt, vamos conhecer a linguagem dos rastreadores de mecanismos de pesquisa.
📝 Como funciona a linguagem robots.txt
A linguagem usada no arquivo robots.txt é chamada de sintaxe robots.txt. Existem algumas regras e termos importantes que você precisa conhecer para entender e escrever um arquivo robots.txt corretamente. A primeira coisa que você precisa saber é o "User-agent:". Essa sintaxe é usada para chamar rastreadores de mecanismos de pesquisa específicos. Quando um rastreador de mecanismo de pesquisa encontra seu site, a primeira coisa que ele fará é procurar pelo arquivo robots.txt na pasta raiz do seu site. Ele analisará o arquivo de texto para ver se está sendo chamado. Se estiver, ele lerá as partes relacionadas a ele. Os nomes dos agentes de usuário ou rastreadores de mecanismos de pesquisa podem ser encontrados nesta lista, na qual forneceremos um link na descrição. Em seguida, temos uma regra "Disallow:" que indica ao agente do usuário para não rastrear determinadas partes do site. Você só pode adicionar um comando "Disallow:" por linha, por isso é por isso que você vê tantas regras de não permitir no arquivo robots.txt da Ikea. A regra de permitir se aplica apenas a um dos rastreadores do Google, chamado Googlebot, permitindo o acesso a uma página ou subpasta, mesmo que sua página ou subpasta pai esteja desabilitada. Por exemplo, no arquivo robots.txt do Rank Math, desabilitamos todos os mecanismos de pesquisa para rastrear a pasta chamada WP-admin, que é o arquivo que reside na pasta raiz. Mas, queremos permitir que os mecanismos de pesquisa rastreiem esse arquivo específico dentro da pasta pai que desabilitamos. O atraso de rastreamento indica ao rastreador para aguardar alguns segundos na porta do seu site antes de carregar e rastrear as páginas do seu site. Um exemplo seria assim. Em seguida, temos o sitemap usado para informar aos rastreadores de mecanismos de pesquisa onde seu sitemap XML está localizado. E depois temos o "/", que é o separador de caminho de arquivo. Se você deixá-lo como uma propriedade individual, significará a pasta inteira do seu site. Em seguida, temos o "", que é um wildcard que representa qualquer sequência de caracteres. Em outras palavras, tudo relacionado a um determinado critério que vem depois. Por exemplo, no arquivo robots.txt da Ikea, eles estão impedindo que os mecanismos de pesquisa rastreiem tudo com o parâmetro de URL que contém o filtro e tudo que vem depois do filtro. Se você deixar o "" como um caractere isolado, significará tudo. Por exemplo, você está chamando todos os agentes de usuário. Em seguida, tudo que vem depois do hashtag será marcado como comentários, assim como temos no nosso arquivo robots.txt. E, finalmente, o "$" indica a correspondência de todas as sequências de caracteres que vêm depois. Por exemplo, o site está impedindo o parâmetro de URL "/solutions/" e todas as partes da URL que vêm depois. Um arquivo robots.txt deve ser adicionado ao diretório de nível superior do site. Como eu disse, quando um rastreador de mecanismo de pesquisa encontra seu site, a primeira coisa que ele procurará é o arquivo robots.txt na pasta raiz do seu site. No gerenciador de arquivos do seu host da web, o arquivo robots.txt deve estar em sua pasta inicial e dentro desta pasta "public_html", como você pode ver aqui. E se você tiver subdomínios, por exemplo, ele deve ter uma pasta com o nome do seu site como esta. Clique nele e é onde você deve adicionar seu arquivo robots.txt. No meu caso, ele está aqui. Agora, se você usar o Rank Math, na verdade não precisa de um arquivo robots.txt na sua pasta raiz, porque você pode gerenciar o conteúdo do seu arquivo robots.txt aqui. Em "Configurações Gerais" e "Editar arquivo robots.txt", diz aqui que o conteúdo está bloqueado porque o arquivo robots.txt está presente na pasta raiz. Portanto, para gerenciar o arquivo robots.txt aqui no Rank Math, vamos para o diretório do site e excluímos o arquivo robots.txt. Caso tenha comandos existentes que deseja copiar para o Rank Math, talvez você queira visitar o arquivo e copiar o conteúdo para adicionar ao Rank Math. Depois de excluir o arquivo robots.txt da sua pasta raiz, atualize a página e agora você pode editar o arquivo robots.txt conforme necessário. Por padrão, se você não tiver um arquivo robots.txt conflitante, o Rank Math adicionará esses comandos para você. Basicamente, estamos chamando todos os agentes de usuário. Por favor, não acesse nossa pasta chamada "wp-admin", mas permitimos que você acesse este documento específico na pasta e este é o índice do sitemap. Se você não tiver restrições especiais para os mecanismos de pesquisa, o arquivo robots.txt padrão do Rank Math será suficiente, mas se tiver, continue acompanhando. O arquivo robots.txt pode ter mais de um grupo e cada grupo pode ter regras diferentes. Cada grupo deve começar com "User-agent:", seguido das regras para esse rastreador quando ele visita seu site. Cada regra deve ser escrita em uma linha separada. Você não deve escrever todas as regras em uma linha, nem dividir uma diretiva em várias linhas. Em vez disso, deve ser assim. Por padrão, podemos assumir que um agente de usuário pode rastrear qualquer página do seu site, a menos que você especifique o contrário, adicionando uma regra "Disallow:" seguida do caminho do arquivo ou parâmetros de URL. Em geral, tudo é permitido. Essa é a razão pela qual os web crawlers existem. Isso faz todo o sentido, certo? Se você quiser chamar mais rastreadores, adicionará o "User-agent:", seguido das regras e, finalmente, do "Sitemap:". Essa é a estrutura do arquivo robots.txt. Agora que entendemos a linguagem robots.txt, vamos agora analisar alguns casos de uso. Conforme mencionei anteriormente, se você possui uma loja de comércio eletrônico, essas páginas de filtro ou busca interna são ótimas para seus clientes, mas confundem os mecanismos de pesquisa por causa do conteúdo duplicado e desperdiçam o orçamento de rastreamento. Portanto, para evitar que os mecanismos de pesquisa acessem essas páginas, precisamos analisar os padrões do site. Por exemplo, vamos verificar o site da Ikea. Nesta página, podemos adicionar alguns filtros, digamos que queremos este tamanho e, em seguida, talvez a cor, queremos preto. E em outra categoria de produto, podemos adicionar filtros também. Isso nos ajudará a descobrir os produtos que estamos procurando facilmente. E na URL de ambas as páginas, você verá isso "?filters=". O mesmo acontece com a outra página. Então, este padrão aparece em todas as páginas que permitem que os usuários filtrem produtos. Para evitar que os mecanismos de pesquisa acessem essas páginas, tudo o que precisamos fazer é adicionar "User-agent:". Você deseja chamar todos os rastreadores de mecanismos de pesquisa, então você adiciona "". Na próxima linha, você deseja adicionar "Disallow:" tudo que tiver esse parâmetro de URL "?filters" e tudo que vem depois. É simples assim. Dependendo do objetivo do seu site, você pode querer impedir que os mecanismos de pesquisa acessem suas páginas de pesquisa interna. Por exemplo, neste site, você pode ver uma função de pesquisa aqui. Vamos pesquisar algo como "sitemap". E aqui está o artigo relacionado à pesquisa. Se você verificar a URL da página de pesquisa, observe o padrão da URL. Vamos fazer outra pesquisa. Dessa vez vamos pesquisar "hospedagem na web" e você verá a URL assim. Você consegue ver o padrão? É este "?s=", então, para evitar que os mecanismos de pesquisa acessem essas páginas de pesquisa interna, adicionaremos "Disallow:" tudo que contiver esse padrão "?s=" e tudo que vier depois. É bem semelhante ao exemplo anterior, mas nem todos os sites têm o mesmo padrão para as páginas de pesquisa interna. Pegue a Ikea, por exemplo. Se você pesquisar, digamos, "colchão", você verá esta URL. Se você fizer outra pesquisa, digamos, "sofá", verá este link. Agora, o padrão óbvio é este "?q=". Portanto, você pode adicionar esse parâmetro de URL à regra de não permitir. Mas se você der uma olhada no arquivo robots.txt da Ikea, notará que eles não desabilitaram o "?q=". Em vez disso, desabilitaram tudo ("") que tem o parâmetro "/search/". O que também faz sentido, pois no URL da página de pesquisa eles têm isso, o que significa que tudo o que vem depois desse parâmetro de pesquisa será desabilitado. Portanto, realmente depende do padrão que faz mais sentido para o seu negócio. Como você viu no exemplo da Ikea, eles desabilitaram "Disallow: /search/" que é uma estrutura do site. Portanto, se você não deseja que os mecanismos de pesquisa acessem partes específicas do seu site com base na estrutura do site, basta adicionar isso à regra de desabilitação. Por exemplo, se você não deseja que os mecanismos de pesquisa acessem as páginas de feed do seu site, basta adicionar "Disallow:" tudo ("") que tiver o parâmetro de URL "/feed/". Simples assim. Agora, se você não deseja que determinados tipos de arquivo sejam rastreados, conforme mencionei anteriormente, alguns tipos de arquivo são destinados a ímãs de leads. Aqui está o que você precisa fazer no seu arquivo robots.txt. Cada imagem, vídeo, áudio, PDFs ou arquivos que você adiciona ao seu site WordPress terá uma URL única como esse arquivo PDF ou essa imagem. Você percebeu que no final da URL vem a extensão do arquivo e esse é um padrão para todos os outros tipos de arquivo. Portanto, se você deseja impedir que os mecanismos de pesquisa rastreiem todos os PDFs, tudo o que você precisa fazer no seu arquivo robots.txt é chamar todos os agentes de usuário e você deseja "Disallow:" tudo ("") que termina com a extensão ".pdf". Da mesma forma, se por algum motivo você quiser desabilitar os arquivos JPEG, será assim. E isso é para PNG, isso é para arquivos do Excel e assim por diante. Bastante simples, não é? Para bloquear todos os rastreadores da web, exceto um específico, você pode primeiro chamar todos os agentes de usuário e adicionar uma regra para impedi-los de acessar todos os arquivos e páginas do seu site, mas você irá chamar outro rastreador específico, como o Googlebot, e você diz que não há nada a ser desabilitado, então você deixa em branco. Se você quiser permitir mais agentes de usuário, basta chamá-los como você fez com o Googlebot. A melhor maneira de descobrir se há erros no seu arquivo robots.txt é usando a ferramenta de teste de robots do Google. Deixamos um link para esta página na descrição. Primeiro, você deseja selecionar a propriedade, verifique se está logado no perfil do Google correto que gerencia o console de pesquisa do seu site e você verá o arquivo robots.txt do seu site. Se as informações encontradas aqui forem diferentes das informações existentes no seu arquivo robots.txt, como você pode ver, as informações da ferramenta de teste estão faltando essa regra de "Disallow: .pdf" nos arquivos do site. O que você deseja fazer é copiar todas as informações e colar no testador e clicar em Enviar. Em seguida, no ponto número três, você deseja pedir ao Google para atualizar suas informações clicando em Enviar. Uma vez feito, atualize a página e você verá as alterações. Se você cometeu um erro, por exemplo, está faltando dois pontos, você verá uma mensagem de aviso na linha em que cometeu o erro. Portanto, essa é uma ótima maneira de depurar se houver erros na sintaxe do seu arquivo robots.txt. Agora, neste caso, quero bloquear todos os mecanismos de pesquisa de acessar meus arquivos PDF. Quero ver se funciona. Então, vou copiar o URL de um dos arquivos PDF do site e colar no final, deixando apenas o slug da URL, e quando eu testar, ele mostra que essa regra bloqueia a URL, então funciona. Sempre que você adicionar uma regra, teste todas as variáveis para garantir que todas as obstruções pretendidas sejam obstruídas sem problemas indesejados. Espero que eu tenha facilitado o entendimento e o acompanhamento deste tutorial. Pode parecer intimidador no início, mas se torna bastante fácil se você dedicar algum tempo para entender isso. Tudo o que você precisa fazer é entender a linguagem que os mecanismos de pesquisa estão falando. Se você achar esse vídeo útil, faça um favor a nós e clique no botão de curtir e inscreva-se em nosso canal para obter mais conhecimento sobre SEO e negócios. Já temos um número considerável de vídeos úteis e está sempre aumentando, então certifique-se de clicar também no sino de notificação para ser notificado quando novos vídeos forem publicados. Sou Jack do Rank Math e nos vemos no próximo vídeo.
📝 Principais casos de uso do arquivo robots.txt
1. Prevenir rastreamento de páginas de filtros e busca interna
Se você possui uma loja de comércio eletrônico, é provável que tenha páginas de filtro e busca interna para facilitar a navegação dos usuários. No entanto, essas páginas podem criar conteúdo duplicado e ocupar o orçamento de rastreamento dos mecanismos de pesquisa. Para evitar que as páginas de filtro e busca interna sejam rastreadas, você pode adicionar uma regra "Disallow" no arquivo robots.txt, apontando para os URLs dessas páginas.
2. Prevenir rastreamento de páginas de pesquisa interna
Assim como as páginas de filtro, as páginas de pesquisa interna podem causar problemas de conteúdo duplicado e desperdiçar o orçamento de rastreamento. Se você não deseja que essas páginas sejam rastreadas pelos mecanismos de pesquisa, você pode adicionar uma regra "Disallow" no arquivo robots.txt, apontando para os URLs das páginas de pesquisa interna.
3. Prevenir rastreamento de tipos de arquivo específicos
Se você possui arquivos, como PDFs ou documentos, que deseja disponibilizar apenas para usuários que fornecem informações de contato, é importante impedi-los de serem encontrados pelos mecanismos de pesquisa. Você pode fazer isso adicionando uma regra "Disallow" no arquivo robots.txt, apontando para os URLs desses tipos de arquivo.
4. Bloquear todos os crawlers, exceto um específico
Em alguns casos, você pode querer bloquear todos os rastreadores de mecanismos de pesquisa, exceto um específico, como o Googlebot. Você pode fazer isso adicionando uma regra "Disallow" no arquivo robots.txt para todos os agentes de usuário, exceto o Googlebot. Isso garantirá que apenas o Googlebot possa rastrear seu site.
📝 Como adicionar o arquivo robots.txt ao seu site
Para adicionar o arquivo robots.txt ao seu site, você precisa acessar o diretório raiz do seu site e criar um arquivo de texto chamado "robots.txt". Você pode fazer isso usando o gerenciador de arquivos fornecido pelo seu provedor de hospedagem ou por meio de um software de FTP. Dentro do arquivo, você pode adicionar as regras necessárias, conforme discutido anteriormente, para controlar o rastreamento do seu site pelos mecanismos de pesquisa. Certifique-se de salvar o arquivo corretamente e colocá-lo no local certo para que os mecanismos de pesquisa possam encontrá-lo.
📝 Como verificar erros e testar o arquivo robots.txt
Para verificar erros no arquivo robots.txt e testar sua funcionalidade, você pode usar a ferramenta de teste de robots do Google. Basta acessar a ferramenta, selecionar a propriedade do seu site e enviar o conteúdo do seu arquivo robots.txt. A ferramenta mostrará se há erros de sintaxe ou problemas com o conteúdo do arquivo. Se houver algum erro, você poderá corrigi-lo e testá-lo novamente até que sua versão final esteja correta. Depois de testar e verificar que não há erros, você pode fazer o upload do arquivo robots.txt para o diretório correto do seu site.
📝 Conclusão
Um arquivo robots.txt é uma parte importante do SEO do seu site. Ele permite que você controle como os mecanismos de pesquisa rastreiam e indexam seu site. Ao usar corretamente o arquivo robots.txt, você pode evitar problemas como conteúdo duplicado, URLs indesejáveis na indexação do mecanismo de pesquisa e uso excessivo do orçamento de rastreamento. Portanto, certifique-se de entender e usar as regras corretas no arquivo robots.txt do seu site para obter os melhores resultados de SEO.
Recursos:
Are you spending too much time on seo writing?
- SEO Course
- 1M+
- SEO Link Building
- 5M+
- SEO Writing
- 800K+
Proseoai has the world's largest selection of seo courses for you to learn. Each seo course has tons of seo writing for you to choose from, so you can choose Proseoai for your seo work!