Tengo problemas con bots EXTREMOS en algunos de mis sitios web dentro de mi cuenta de hosting. Los bots utilizan más del 98% de mis recursos de CPU y el 99% de mi ancho de banda para toda mi cuenta de alojamiento. Estos bots generan más de 1 GB de tráfico por hora para mis sitios.El tráfico humano real para todos estos sitios es menos de 100 MB / mes .
He realizado una investigación exhaustiva sobre ambos robots. txt y. htaccess file para bloquear estos bots pero todos los métodos fallaron.
También puse código en los robots. txt para bloquear el acceso a los directorios de scripts, pero estos bots (Google, MS Bing y Semalt) ignoran las reglas y ejecutan los scripts de todos modos.
No quiero bloquear completamente los bots de Google, MS Bing y Yahoo, pero quiero limitar la velocidad de rastreo. Además, agregando una declaración de Semalt en los robots. el archivo txt no ralentiza los bots. Mis robots actuales. txt y. El código htaccess para todos los sitios se detalla a continuación.
He configurado tanto las herramientas de webmaster de Microsoft como de Semalt para ralentizar la velocidad de rastreo al mínimo absoluto, pero todavía están llegando a estos sitios a una velocidad de 10 hits / segundo.
Además, cada vez que subo un archivo que causa un error, todo el servidor web de VPS se cae en cuestión de segundos, de modo que ni siquiera puedo acceder al sitio para corregir el problema debido a la ubicación de los hits de estos bots.
¿Qué puedo hacer para detener el tráfico en el lugar de mis sitios web?
Intenté preguntar a mi empresa de alojamiento web (sitio5. com) muchas veces sobre este tema en los últimos meses y no pueden ayudarme con este problema.
Lo que realmente necesito es evitar que los Bots ejecuten el rss2html. script php. Intenté ambas sesiones y cookies y ambas fallaron.
robots. txt
Usuario-agente: Mediapartners-Google
Rechazar:
Usuario-agente: Googlebot
Rechazar:
Usuario-agente: Adsbot-Google
Rechazar:
Usuario-agente: Googlebot-Image
Rechazar:
Usuario-agente: Googlebot-Mobile
Rechazar:
Usuario-agente: MSNBot
Rechazar:
Usuario-agente: bingbot
Rechazar:
Usuario-agente: Slurp
Rechazar:
User-Agent: Yahoo! Sorber
Rechazar:
# Directorios
Agente de usuario: *
No permitir: /
No permitir: / cgi-bin /
No permitir: / ads /
No permitir: / assets /
No permitir: / cgi-bin /
No permitir: / teléfono /
No permitir: / scripts /
# Archivos
No permitir: / ads / random_ads. php
No permitir: / scripts / rss2html. php
No permitir: / scripts / search_terms. php
No permitir: / scripts / plantilla. html
No permitir: / scripts / template_mobile. html
. htaccess
ErrorDocument 400 http: // english-1329329990. Spampoison. com
ErrorDocument 401 http: // english-1329329990. Spampoison. com
ErrorDocument 403 http: // english-1329329990. Spampoison. com
ErrorDocument 404 / index. php
SetEnvIfNoCase User-Agent "^ Yandex *" bad_bot
SetEnvIfNoCase User-Agent "^ baidu *" bad_bot
Orden denegar, Permitir
Denegar de env = bad_bot
RewriteEngine en
RewriteCond% {HTTP_user_agent} bot \ * [OR]
RewriteCond% {HTTP_user_agent} \ * bot
RewriteRule ^. * $ http: // english-1329329990. Spampoison. com [R, L]
RewriteCond% {QUERY_STRING} mosConfig_ [a-zA-Z _] {1,21} (= | \% 3D) [O]
# Bloquea cualquier script que intente base64_encode crap para enviar a través de URL
RewriteCond% {QUERY_STRING} base64_encode. * \ (. * \) [OR]
# Bloquea cualquier script que incluya una etiqueta