« Configurar páginas de erro | livro Apache | Lançada versão 2.1.7 do pound »
dezembro 06, 2006
Controlar os robots
Se analisarem com alguma atenção os registos do servidor web, rapidamente chegarão à conclusão que o número de acessos efectuados por bicharada (crawlers, robots ou spiders) é cada vez maior. Se não forem domesticados, estes automatismos podem facilmente sobrecarregar os servidores web e impedir que os utilizadores legítimos consigam utilizar os serviços.
Actualmente, estão registados cerca de 300 destes mecanismos na base de dados de robots na web, o que quer dizer que é possível identificar os objectivos de cada um, bem como a sua forma de funcionamento. Ainda assim, existe um número enorme que não está registado e cujo comportamento pode causar problemas.
Os mecanismos existentes para controlar este tipo de acessos passam pela configuração do servidor web, tipicamente com o mecanismo conhecido como robots.txt. Para tirar partido deste mecanismo, basta criar um ficheiro com este nome na raiz do servidor web (ou do virtualhost em questão) e incluir a configuração relativa a cada robot. Segue-se um exemplo:
User-Agent: GetURL.rexx v1.05
Disallow: /adm
Disallow: /images
User-Agent: Nutch
Disallow: /configuracao
Publicado por scorpio às dezembro 6, 2006 10:03 PM
Trackback pings
TrackBack URL para esta entrada:
http://apache.weblog.com.pt/privado/tb.cgi/149798