Solución:
¿Debo bloquear Yandex?
¿Por qué?
Primero, si el bot es un bot de motor de búsqueda legítimo (y nada más), no lo piratearán. De lo contrario, bloquear un agente de usuario no ayudará, solo usarán otro.
Si su contraseña es buena, fail2ban está configurado, el software está actualizado, etc., déjelos intentarlo. De lo contrario, debe solucionarlo, independientemente de los bots de Yandex.
Para asegurarse de que el problema sea realmente Yandex, intente no permitirlo en robots.txt y vea si se detiene.
No => no Yandex.
(Configuró un nuevo servidor web hace algunas semanas. Una hora después de conectarse, ni siquiera tenía un dominio todavía, un “Googlebot” comenzó a probar inyecciones SQL para un Wordpress inexistente. Fue divertido de ver, ya que no había otros Solicitudes HTTP. Pero no bloqueé Google por eso).
Además de estar de acuerdo con la respuesta de @deviantfan y específicamente con este punto
Primero, si el bot es un bot de motor de búsqueda legítimo (y nada más), no lo piratearán. De lo contrario, bloquear un agente de usuario no ayudará, solo usarán otro.
Me gustaría señalar que como Yandex
así como otros motores de búsqueda, los bots en general podrían no querer acceder intencionalmente a su backend. Recuerde que los bots están rastreando los sitios siguiendo los enlaces, así que imagine si los malos pusieran algunas de las URL de su backend en las páginas de algún otro sitio web, y el motor de búsqueda simplemente indexara esas páginas y ahora está tratando de seguir los enlaces desde allí. Entonces, parecerá que el motor de búsqueda está tratando de acceder a su backend, pero simplemente rastrea la red: no sabe que es su backend.
Algo similar podría suceder por accidente. Digamos que un usuario no experto en tecnología publicó una URL en algún foro, al que solo se puede acceder cuando está conectado; al rastrear, el motor de búsqueda intentará seguir esos enlaces y terminará viendo registros como supongo que lo hizo.
ACTUALIZAR: Creo que es posible que desee configurar su regla de robots.txt para no permitir que Yandex acceda a URL específicas. Por cierto, es mejor que defina una regla específica con su nombre, no estoy seguro, pero podría suceder, que Yandexbot puede ignorar User-agent: *
, para que pueda hacer algo como esto (de acuerdo con sus URL de backend)
User-agent: Yandex
Disallow: /admin/*
Por lo tanto, de esta manera, no le permitirá intentar acceder a las URL de backend, coincidiendo con ese patrón, pero al mismo tiempo, (yandexbot) podrá rastrear otras páginas de su sitio web.
No debe bloquear el bot legítimo de Yandex, pero puede verificar que de hecho es el bot legítimo, y no alguien que solo use el agente de usuario de Yandex.
De: https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.xml
- Determine la dirección IP del agente de usuario en cuestión utilizando los registros de su servidor. Todos los robots Yandex están representados por un agente de usuario establecido.
- Utilice una búsqueda DNS inversa de la dirección IP recibida para determinar el nombre de dominio del host.
- Después de determinar el nombre de host, puede verificar si pertenece o no a Yandex. Todos los robots Yandex tienen nombres que terminan en ‘yandex.ru’, ‘yandex.net’ o ‘yandex.com’. Si el nombre de host tiene un final diferente, el robot no pertenece a Yandex.
- Por último, asegúrese de que el nombre sea correcto. Utilice una búsqueda de DNS hacia adelante para obtener la dirección IP correspondiente al nombre de host. Debe coincidir con la dirección IP utilizada en la búsqueda de DNS inversa. Si las direcciones IP no coinciden, significa que el nombre de host es falso.
De hecho, casi todos los grandes motores de búsqueda ofrecen formas similares de verificar el agente de usuario. La forma en que esto funciona es porque alguien puede falsificar la búsqueda DNS inversa, pero no el DNS directo de esa dirección falsificada.