O Que é Crawl Budget e Por Que Você Deveria Se Preocupar

· 22 min de leitura · Por Fabio Santiago

O que é crawl budget na prática

Crawl budget é a quantidade de páginas que o Googlebot (e outros crawlers) está disposto a rastrear no seu site em um determinado período. Não é um número fixo — ele varia de acordo com a saúde técnica do site, a autoridade do domínio e a frequência de atualização do conteúdo.

O Google define crawl budget como a combinação de dois fatores:

  • Crawl rate limit: a velocidade máxima que o Googlebot pode rastrear sem sobrecarregar seu servidor.
  • Crawl demand: o quanto o Google “quer” rastrear, baseado em popularidade e atualização das páginas.

Se o seu site tem 50 páginas, crawl budget não é um problema. Mas se você gerencia um e-commerce com 100.000 URLs, um blog com milhares de posts ou qualquer site com URLs dinâmicas geradas sem controle, entender esse conceito pode ser a diferença entre estar indexado ou invisível.

Crawl rate limit vs. crawl demand em detalhe

O crawl rate limit é calculado automaticamente pelo Google com base em dois sinais:

  1. Capacidade do servidor: se o Googlebot percebe que as requisições estão causando erros 5xx ou timeouts, ele reduz a frequência automaticamente. Um servidor saudável com respostas consistentes abaixo de 200ms “convida” o Google a rastrear mais.
  2. Configuração no Search Console: no painel antigo do GSC havia a opção de limitar manualmente a taxa de rastreamento. Embora o Google tenha removido essa opção para a maioria dos sites, o princípio permanece — o sistema se auto-regula.

Já o crawl demand depende de:

  • Popularidade das URLs: páginas que recebem muitos links externos e internos são rastreadas com mais frequência.
  • Freshness (frescor): páginas que mudam frequentemente recebem visitas mais regulares do Googlebot.
  • Eventos do sitemap: quando você atualiza o lastmod de uma URL no sitemap.xml e o Google percebe que a data mudou, ele prioriza o rastreamento dessa URL.

Na prática, o crawl budget do seu site é o menor entre esses dois fatores. Um servidor rápido com conteúdo estagnado terá crawl demand baixo. Um site com conteúdo atualizado constantemente mas servidor lento terá crawl rate limit baixo.

Por que crawl budget importa

Quando o Googlebot visita seu site, ele tem um tempo limitado. Se esse tempo é gasto rastreando páginas irrelevantes (filtros duplicados, parâmetros de URL, páginas de paginação infinita), as páginas que realmente importam podem demorar semanas ou meses para serem descobertas e indexadas.

Impacto direto na indexação

O problema não é apenas lentidão — é omissão. Se o Google gasta 80% do crawl budget em URLs inúteis, suas páginas de conteúdo de qualidade ficam na fila. Em sites grandes, vimos casos em que páginas de produto levaram mais de 90 dias para serem indexadas simplesmente porque o crawler estava ocupado com filtros de busca interna.

Impacto no frescor dos resultados

Mesmo que suas páginas já estejam indexadas, se o Googlebot não as revisita com frequência, atualizações no conteúdo podem levar semanas para refletir nos resultados de busca. Isso é crítico para:

  • Páginas de preço: alterações de preço que não aparecem nos snippets.
  • Conteúdo sazonal: artigos atualizados para datas específicas que aparecem desatualizados.
  • Correções de conteúdo: erros factuais que você corrigiu mas o Google ainda mostra a versão antiga.

Sinais de que crawl budget pode ser um problema no seu site

  • Páginas novas demoram mais de duas semanas para aparecer no índice.
  • O Google Search Console mostra muitas páginas “Descoberta, mas não indexada”.
  • O relatório de rastreamento mostra centenas de URLs que você nem reconhece.
  • Seu site tem mais URLs no índice do que páginas reais de conteúdo.
  • As estatísticas de rastreamento no GSC mostram declínio sem motivo aparente.
  • Páginas atualizadas há semanas ainda mostram cache antigo no Google.

Como o Googlebot decide o que rastrear

O processo de rastreamento do Google é mais sofisticado do que a maioria imagina. Veja o fluxo completo:

  1. Scheduler do Googlebot decide quais URLs rastrear baseado em sinais como frequência de mudança, importância (links internos e externos) e última data de rastreamento.
  2. Fetcher faz a requisição HTTP e baixa o HTML.
  3. Renderer executa JavaScript (quando necessário) e extrai links.
  4. Indexer processa o conteúdo e decide se indexa ou não.
  5. Quality evaluation avalia se o conteúdo merece permanecer no índice ou ser substituído.

O ponto crítico é o passo 1. Se o scheduler tem 10.000 URLs na fila do seu site, mas o crawl budget permite rastrear apenas 2.000 por dia, as 8.000 restantes esperam. E se novas URLs entram na fila constantemente (via parâmetros UTM, sessões, filtros), o backlog só cresce.

A fila de rastreamento e o conceito de prioridade

O Google mantém uma fila de URLs conhecidas para cada site. Cada URL na fila tem uma prioridade calculada com base em:

FatorImpacto na prioridade
Número de links internos apontando para a URLAlto
Presença no sitemap.xml com lastmod recenteMédio-Alto
Número de backlinks externosAlto
Distância da homepage (profundidade de cliques)Médio
Histório de mudanças da URLMédio
Status code anterior (200, 301, 404)Alto
Tempo desde o último rastreamentoBaixo-Médio

URLs com prioridade alta são rastreadas primeiro. URLs com prioridade baixa podem ficar na fila por semanas. É por isso que sua arquitetura de links internos impacta diretamente o crawl budget.

Primeira onda vs. segunda onda de renderização

Um detalhe técnico importante: o Google rastreia em duas ondas. Na primeira, ele baixa o HTML e extrai links. Na segunda, ele renderiza JavaScript. Se seu site depende de JS para gerar conteúdo (SPAs, React sem SSR, Angular), a primeira onda pode não capturar o conteúdo real — e a segunda onda pode demorar dias ou semanas.

Para sites que dependem de JavaScript, isso efetivamente dobra o consumo de crawl budget: uma requisição para o HTML, outra para renderizar.

Os vilões do crawl budget

Identificar o que desperdiça crawl budget é o primeiro passo para otimizá-lo. Esses são os problemas mais comuns, ordenados por frequência:

URLs com parâmetros desnecessários

https://seusite.com/produto?cor=azul&tamanho=m&sessao=abc123
https://seusite.com/produto?cor=azul&tamanho=m&sessao=def456
https://seusite.com/produto?cor=azul&tamanho=m&sessao=ghi789

Três URLs que levam à mesma página. Multiplique isso por todos os seus produtos e variações — e o Googlebot vai gastar tempo rastreando a mesma coisa dezenas de vezes.

Parâmetros comuns que geram duplicação:

Tipo de parâmetroExemploSolução
Sessão/tracking?sessao=abc, ?sid=123Bloquear no robots.txt
UTM de campanhas?utm_source=email&utm_medium=newsletterCanonical tag para URL limpa
Ordenação/filtros?ordem=preco&pagina=3Canonical + noindex em combinações
Moeda/idioma?lang=pt&moeda=brlhreflang + canonical
Busca interna?q=termo+de+buscaBloquear rastreamento

Páginas de baixa qualidade no índice

Páginas de tags vazias, arquivos de autor com um post, resultados de busca interna, páginas de paginação sem conteúdo único. Tudo isso consome crawl budget sem gerar valor.

Como identificar: No GSC, vá em Indexação > Páginas. Exporte a lista de URLs indexadas e revise manualmente. Procure por padrões como /tag/, /author/, /page/, /search/.

Escala do problema: Em um e-commerce típico com 5.000 produtos, é comum encontrar 50.000+ URLs indexadas por causa de filtros combinatórios. Se cada filtro (cor, tamanho, preço, marca) gera URLs únicas, o número de combinações explode exponencialmente.

Redirecionamentos em cadeia

Se a URL A redireciona para B, que redireciona para C, que redireciona para D, o Googlebot gastou quatro requisições para chegar a uma página. Mantenha redirecionamentos diretos (A para D).

Problema acumulativo: Em migrações de site mal executadas, é comum acumular cadeias ao longo de anos. O site migrou de HTTP para HTTPS (redirect 1), depois mudou a estrutura de URLs (redirect 2), depois consolidou conteúdo (redirect 3). O resultado são cadeias de 3+ saltos que o Googlebot precisa seguir.

Respostas lentas do servidor

Se o tempo de resposta do seu servidor é de 3 segundos por página, o Googlebot vai rastrear muito menos páginas no mesmo período do que em um servidor que responde em 200ms.

Cálculo prático: Se o Google aloca 10 minutos de rastreamento para seu site por dia:

  • Servidor com TTFB de 200ms → ~3.000 páginas rastreadas/dia
  • Servidor com TTFB de 1s → ~600 páginas rastreadas/dia
  • Servidor com TTFB de 3s → ~200 páginas rastreadas/dia

A diferença é brutal. Um servidor 15x mais lento resulta em 15x menos páginas rastreadas.

Soft 404s

Páginas que retornam status 200 mas mostram conteúdo vazio ou genérico (“nenhum resultado encontrado”). O Googlebot as rastreia, tenta indexar e eventualmente percebe que não são úteis — mas já gastou recursos.

Exemplos comuns: páginas de categoria vazia em e-commerces, perfis de usuário sem conteúdo, páginas de busca sem resultados, landing pages de campanhas expiradas que mostram mensagem genérica.

Conteúdo duplicado ou quase-duplicado

Páginas com conteúdo praticamente idêntico (variações mínimas) forçam o Googlebot a rastrear todas elas para depois decidir qual é a canônica. Cada variação consome budget sem agregar valor.

Espaços infinitos de URL (crawl traps)

Calendários, filtros combinatórios e URLs geradas dinamicamente podem criar espaços “infinitos” de URLs. Um calendário com links para próximo mês/próximo ano pode gerar URLs para o ano 3000. Filtros de preço com ranges customizáveis geram milhares de combinações.

Como otimizar o crawl budget

1. Limpe URLs desnecessárias do índice

Comece pelo Google Search Console. Vá em Indexação > Páginas e revise todas as URLs indexadas. Pergunte para cada uma: “Esta página atrai tráfego ou tem potencial para isso?” Se a resposta for não, considere remover do índice com noindex ou bloquear o rastreamento no robots.txt.

Processo recomendado:

  1. Exporte a lista completa de URLs indexadas do GSC.
  2. Cruze com dados de Analytics — quais URLs receberam tráfego nos últimos 6 meses?
  3. URLs sem tráfego e sem potencial de busca → noindex.
  4. URLs que são variações do mesmo conteúdo → canonical para a versão principal.
  5. URLs de busca interna, filtros, paginação → bloqueie no robots.txt e adicione noindex.

2. Configure o robots.txt corretamente

User-agent: *
Disallow: /busca/
Disallow: /*?sessao=
Disallow: /*?utm_
Disallow: /tag/
Disallow: /author/
Disallow: /page/
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /minha-conta/

Sitemap: https://seusite.com/sitemap.xml

Bloquear no robots.txt impede o rastreamento, mas não a indexação. Se uma página bloqueada recebe links externos, o Google pode indexá-la mesmo assim (sem rastrear o conteúdo). Para garantir desindexação, use a meta tag noindex.

Dica: Use nosso Gerador de robots.txt para criar um arquivo completo com bloqueio de AI crawlers e configurações otimizadas.

Diferença entre bloquear e noindexar:

MétodoImpede rastreamentoImpede indexaçãoPreserva link equity
robots.txt DisallowSimNão (pode indexar sem rastrear)Sim
Meta noindexNão (precisa rastrear para ver a tag)SimNão
Canonical tagNãoIndiretamente (consolida)Sim (transfere para canonical)
nofollow em links internosParcialmenteNãoNão (desperdiça)

3. Resolva redirecionamentos em cadeia

Use uma ferramenta como Screaming Frog (versão gratuita rastreia até 500 URLs) ou um script simples com curl:

curl -sIL "https://seusite.com/url-antiga" | grep -E "^(HTTP|Location)"

Isso mostra toda a cadeia de redirecionamento. Corrija para que cada redirecionamento vá direto ao destino final.

Script para verificar múltiplas URLs:

while read url; do
  echo "=== $url ==="
  curl -sIL "$url" | grep -E "^(HTTP|Location)"
  echo ""
done < urls-para-verificar.txt

4. Melhore o tempo de resposta do servidor

O Googlebot prefere sites rápidos. Algumas ações práticas:

  • Habilite cache no servidor (Redis, Varnish, ou cache de página do seu CMS).
  • Use CDN para assets estáticos.
  • Otimize queries de banco de dados que tornam páginas lentas.
  • Monitore o TTFB (Time to First Byte) — ideal é abaixo de 200ms.
  • Considere site estático (Astro, Hugo, Next.js static) — TTFB praticamente zero.

Benchmark de TTFB por tipo de servidor:

TipoTTFB típicoImpacto no crawl budget
CDN + site estático20-50msExcelente
VPS + cache (Redis/Varnish)50-200msBom
Shared hosting + WordPress sem cache500ms-2sRuim
WooCommerce sem otimização1-5sPéssimo

5. Use o sitemap.xml estrategicamente

O sitemap não é apenas uma lista de URLs — é um sinal de prioridade para o Googlebot. Inclua apenas URLs que você quer indexadas e mantenha as datas de lastmod precisas (mude só quando o conteúdo realmente mudar).

<url>
  <loc>https://seusite.com/pagina-importante</loc>
  <lastmod>2023-03-15</lastmod>
  <priority>0.8</priority>
</url>

Boas práticas para sitemap e crawl budget:

  • Máximo de 50.000 URLs por arquivo sitemap (limite do protocolo).
  • Divida por tipo: sitemap-posts.xml, sitemap-products.xml, sitemap-categories.xml. Isso ajuda o Google a priorizar por tipo de conteúdo.
  • Remova URLs com noindex do sitemap — enviar sinais contraditórios confunde o Google.
  • Atualize lastmod honestamente — alterar lastmod sem mudar conteúdo diminui a confiança do Google no seu sitemap.

Use nossa ferramenta: Gerador de Sitemap XML para criar sitemaps completos com as datas e prioridades corretas.

Páginas com muitos links internos são rastreadas com mais frequência. Se uma página importante está enterrada a cinco cliques da home, o Googlebot pode demorar para encontrá-la.

Regra prática: toda página importante do site deve estar a no máximo três cliques da homepage.

Estrutura de silo para crawl budget eficiente:

Homepage (1 clique)
├── /categoria-a/ (2 cliques)
│   ├── /categoria-a/produto-1/ (3 cliques)
│   ├── /categoria-a/produto-2/ (3 cliques)
│   └── /categoria-a/subcategoria/ (3 cliques)
│       ├── /categoria-a/subcategoria/produto-3/ (4 cliques) ⚠️
│       └── /categoria-a/subcategoria/produto-4/ (4 cliques) ⚠️
└── /blog/ (2 cliques)
    ├── /blog/artigo-importante/ (3 cliques) ✅
    └── /blog/artigo-antigo/ (3 cliques) ✅

Produtos a 4+ cliques da home recebem menos rastreamento. Resolva com links diretos na navegação, breadcrumbs, ou módulos “Produtos populares”.

7. Implemente paginação correta

Para listagens com paginação:

  • Não use noindex em páginas paginadas — os produtos/posts nessas páginas precisam ser descobertos.
  • Use canonical self-referencing em cada página de paginação (cada página aponta para si mesma).
  • Inclua links de paginação (<a href="/categoria/?page=2">), não carregamento infinito via JavaScript invisível ao Googlebot.
  • Considere “View All” para categorias pequenas (até 100 itens) — consolida o rastreamento em uma única URL.

8. Gerencie JavaScript e renderização

Se seu site depende de JavaScript para conteúdo:

  • Prefira SSR (Server-Side Rendering) ou SSG (Static Site Generation) — o conteúdo já está no HTML quando o Googlebot faz a primeira requisição.
  • Evite lazy loading em conteúdo principal — o Googlebot pode não scrollar a página.
  • Teste com “Inspeção de URL” no GSC — compare o HTML renderizado com o que você espera.
  • Use Dynamic Rendering como solução intermediária — serve HTML pré-renderizado para bots e JavaScript para usuários.

Como monitorar o crawl budget

Google Search Console

Em Configurações > Estatísticas de rastreamento, você encontra:

  • Total de solicitações de rastreamento por dia.
  • Tempo médio de resposta.
  • Status de host.

Se o número de rastreamentos diários cair sem motivo, investigue. Pode ser um problema de servidor, bloqueio acidental no robots.txt ou queda de demanda de rastreamento.

O que analisar nas estatísticas de rastreamento:

  1. Tendência de total de requisições: deve ser estável ou crescente. Queda abrupta indica problema.
  2. Tempo médio de download: deve estar abaixo de 500ms. Acima de 1s é preocupante.
  3. Tipos de arquivo rastreado: se o Google está gastando tempo com CSS, JS e imagens em excesso, pode estar faltando orçamento para HTML.
  4. Códigos de resposta: muitos 404s ou 5xx indicam URLs problemáticas no índice.

Análise de logs do servidor

A forma mais precisa de entender o crawl budget é analisar os logs de acesso do servidor. Filtre por user-agent do Googlebot:

grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

Isso mostra as URLs mais rastreadas pelo Googlebot. Se as primeiras posições são URLs irrelevantes, você sabe onde agir.

Análise avançada de logs:

# URLs mais rastreadas por dia
grep "Googlebot" access.log | awk '{print $4, $7}' | \
  cut -d: -f1-2 | sort | uniq -c | sort -rn | head -30

# Taxa de erros do Googlebot
grep "Googlebot" access.log | awk '{print $9}' | sort | uniq -c | sort -rn

# Tempo médio de resposta para o Googlebot (se o log inclui tempo)
grep "Googlebot" access.log | awk '{sum+=$NF; count++} END {print sum/count}'

Ferramentas de análise de logs para SEO:

  • Screaming Frog Log Analyzer (pago): interface visual para logs de servidor.
  • GoAccess (gratuito): dashboard em terminal para logs Apache/Nginx.
  • Elasticsearch + Kibana (gratuito, complexo): para sites grandes que precisam de análise em tempo real.
  • Scripts customizados (Python/Bash): para análises específicas do seu caso.

Ferramentas de terceiros

Embora o GSC e logs sejam as fontes mais confiáveis, ferramentas como Screaming Frog, Sitebulb e Ahrefs oferecem relatórios de crawl budget que simulam o comportamento do Googlebot e identificam problemas potenciais antes que impactem a indexação.

Crawl budget para diferentes tipos de site

O impacto e as prioridades de otimização variam conforme o tipo de site:

E-commerces

O maior desafio são filtros combinatórios. Um site com 5 cores × 10 tamanhos × 20 categorias = 1.000 URLs de filtro por produto. Com 1.000 produtos, são 1 milhão de URLs potenciais.

Soluções específicas:

  • Implemente faceted navigation com AJAX (filtros não geram URLs).
  • Use noindex, follow em páginas de filtro — permite ao Google seguir links para produtos mas não indexar a página de filtro.
  • Canonical todas as variações de filtro para a URL limpa da categoria.

Portais de notícias

Volume alto de publicação diária. O desafio é garantir que artigos novos sejam rastreados rapidamente.

Soluções específicas:

  • Sitemap de notícias (news-sitemap.xml) com URLs das últimas 48 horas.
  • Ping do sitemap para o Google após cada publicação.
  • Remova artigos antigos sem tráfego do sitemap principal.

Blogs e sites de conteúdo

Geralmente sem problemas graves de crawl budget, exceto se tiverem:

  • Paginação excessiva (milhares de páginas de tag/arquivo).
  • URLs de busca interna indexadas.
  • Versões AMP desatualizadas.

Sites com JavaScript pesado (SPAs)

O maior desafio é a renderização. Considere:

  • Pre-rendering para bots (Rendertron, Prerender.io).
  • Migração para SSR/SSG (Next.js, Nuxt, Astro).
  • Dynamic rendering como solução intermediária.

Quando crawl budget não é problema

Para a maioria dos sites pequenos e médios (menos de 10.000 páginas), crawl budget raramente é um gargalo. O Google tem capacidade de sobra para rastrear sites desse porte.

Crawl budget se torna crítico em:

  • E-commerces com catálogos grandes e muitos filtros.
  • Sites de classificados e marketplaces.
  • Portais de notícias com publicação em alto volume.
  • Sites com problemas técnicos que geram URLs infinitas.
  • Sites com servidor lento (TTFB > 1 segundo).
  • Sites após migração com muitos redirecionamentos acumulados.

Se o seu site tem 200 páginas e o Google está indexando todas, gaste sua energia em conteúdo e links — não em crawl budget.

Checklist de otimização de crawl budget

Use esta lista para auditar o crawl budget do seu site:

  • Verificar estatísticas de rastreamento no GSC (tendência estável?)
  • Analisar URLs indexadas — há lixo no índice?
  • Revisar robots.txt — bloqueando URLs desnecessárias?
  • Verificar cadeias de redirecionamento (máximo 1 salto)
  • Medir TTFB do servidor (ideal < 200ms)
  • Confirmar que sitemap contém apenas URLs indexáveis
  • Verificar profundidade de cliques (máximo 3 da home)
  • Testar renderização de JavaScript com GSC
  • Analisar logs do servidor para padrões de rastreamento
  • Verificar soft 404s no relatório de cobertura

Perguntas frequentes sobre crawl budget

Crawl budget afeta meu site pequeno?

Provavelmente não. Sites com menos de 10.000 páginas e servidor razoável não costumam ter problemas de crawl budget. O Google tem capacidade de sobra para rastrear sites menores. Foque em conteúdo e links.

Posso aumentar meu crawl budget?

Não diretamente. Mas você pode remover obstáculos que o limitam: melhorar velocidade do servidor, limpar URLs desnecessárias, resolver redirecionamentos em cadeia e manter o sitemap atualizado. O Google naturalmente aumenta o crawl rate para sites saudáveis e com conteúdo atualizado.

Com que frequência o Google rastreia meu site?

Varia enormemente. Sites de notícias podem ser rastreados centenas de vezes por hora. Sites pequenos sem atualizações podem receber visitas do Googlebot apenas uma vez por semana. Verifique em GSC > Configurações > Estatísticas de rastreamento.

Bloquear no robots.txt economiza crawl budget?

Sim. Se o Googlebot encontra um Disallow no robots.txt, ele pula a URL sem fazer a requisição completa. É a forma mais eficiente de economizar crawl budget para URLs que não precisam ser rastreadas.

O sitemap.xml aumenta o crawl budget?

Não aumenta o orçamento total, mas influencia a prioridade de rastreamento. URLs no sitemap são consideradas mais importantes pelo scheduler do Googlebot. Isso significa que são rastreadas antes das URLs descobertas apenas por links.

JavaScript afeta o crawl budget?

Sim, significativamente. Sites que dependem de JavaScript para renderizar conteúdo consomem crawl budget duas vezes: uma para baixar o HTML e outra para renderizar o JS. Além disso, a fila de renderização do Google pode ter atraso de dias.

Conclusão

Crawl budget é um daqueles conceitos que a maioria ignora até se tornar um problema. E quando se torna, a solução costuma ser demorada. O ideal é manter a casa limpa desde o início: URLs limpas, servidor rápido, sitemap atualizado e nada de lixo no índice.

Se você gerencia um site grande, invista em análise de logs. É a única forma de ver exatamente o que o Googlebot está fazendo no seu site — e onde está desperdiçando tempo.

A boa notícia é que a maioria das otimizações de crawl budget são one-time fixes — uma vez que você limpa o robots.txt, resolve redirecionamentos e organiza o sitemap, o benefício é permanente. O custo é investir algumas horas de trabalho técnico. O retorno é indexação mais rápida, conteúdo atualizado nos resultados e menos recursos do servidor desperdiçados com bots.

Para sites que estão começando, a melhor estratégia é prevenir em vez de remediar: mantenha URLs limpas desde o início, use canonical tags consistentemente e não deixe URLs órfãs se acumularem no índice.

Gratuito

Gostou deste artigo?

Receba dicas exclusivas de SEO, novas ferramentas e guias toda semana. Sem spam — apenas conteúdo útil.

Sem spam. Cancele quando quiser.