« Configurar páginas de erro | livro Apache | Lançada versão 2.1.7 do pound »

dezembro 06, 2006

Controlar os robots

Se analisarem com alguma atenção os registos do servidor web, rapidamente chegarão à conclusão que o número de acessos efectuados por bicharada (crawlers, robots ou spiders) é cada vez maior. Se não forem domesticados, estes automatismos podem facilmente sobrecarregar os servidores web e impedir que os utilizadores legítimos consigam utilizar os serviços.
Actualmente, estão registados cerca de 300 destes mecanismos na base de dados de robots na web, o que quer dizer que é possível identificar os objectivos de cada um, bem como a sua forma de funcionamento. Ainda assim, existe um número enorme que não está registado e cujo comportamento pode causar problemas.

Os mecanismos existentes para controlar este tipo de acessos passam pela configuração do servidor web, tipicamente com o mecanismo conhecido como robots.txt. Para tirar partido deste mecanismo, basta criar um ficheiro com este nome na raiz do servidor web (ou do virtualhost em questão) e incluir a configuração relativa a cada robot. Segue-se um exemplo:

User-Agent: GetURL.rexx v1.05
Disallow: /adm
Disallow: /images
User-Agent: Nutch
Disallow: /configuracao

Publicado por scorpio às dezembro 6, 2006 10:03 PM

Trackback pings

TrackBack URL para esta entrada:
http://apache.weblog.com.pt/privado/tb.cgi/149798

Comentários

Comente




Recordar-me?

(pode usar HTML tags)