jueves, 16 de enero de 2014

Bots vs Humanos (2013)


trafico web, trafico web robots, trafico web humano

(Vía Incapsula a través de Bots vs Browsers)


Una de mis primeras decepciones una vez creada la web de Acta Verbum es que en el listado de visitas aparecía en numerosas ocasiones la página para registrarse. Sin embargo, nadie se registraba. ¿Por qué? ¿Por qué entran en registrarse y después no se registran? ¿No llegan los correos de confirmación? ¿Tan despacio carga la página que se aburren esperando?

No era para tanto. Para empezar, tenía el archivo "robots.txt" de serie. Malo. Hay que poner algunas limitaciones a qué se puede y sobre todo, a quién se puede dejar pasar.

Para decirlo pronto y bien; el archivo robots.txt es un archivo de texto almacenado en el servidor que le le dice a los bots (programas informáticos que viajan de un enlace a otro almacenando los datos en una base de datos que después podrá utilizarse para recuperar la información o para analizarla en función del propósito) qué partes de un dominio (sitio web) pueden rastrear y almacenar en su base de datos. Pueden ser urls o directorios, aunque no es la única forma de limitar el acceso. (Más información sobre el archivo robots.txt)

Esto soluciona la mayor parte del problema, pero no el problema. Algunos bots son capaces de evadir el archivo "robots.txt" o la etiqueta index="nofollow". Eso sí parece un problema...

En Drupal, las estadísticas también te muestran la IP que te visita. La IP es como la matrícula de nuestro ordenador mientras navegamos por internet. Depende de la conexión a internet, por lo que también puede utilizarse para aproximarnos a su situación geográfica (hay excepciones).

Fue entonces cuando, buscando directamente por IPs, me encontré con "The Project Honey Pot". Esta web nos ofrece un directorio donde nos avisa si una IP es sospechosa de ser utilizada para rastrear la web con malas intenciones, bien para recopilar datos como direcciones de correo (para enviar publicidad, por ejemplo), para dejar comentarios tipo "Me gusta mucho, -enlace-", o incluso para hacer ataques de diccionario para romper contraseñas.

Ahora me visitan menos bots "de los malos" y el servidor parece que lo nota. No es especialmente rápido de por sí, pero lo nota.

Es increíble lo que pueden hacer ciertos programas. En mi caso, un bot había creado varias cuentas de usuario, introduciendo incluso una fecha de nacimiento aleatoria. El mejor consejo para evitar la mayor parte de las intrusiones automatizadas es introducir CAPTCHAs en todas las páginas que incluyan formularios (páginas de registro, comentarios...), especialmente las disponibles para usuarios anónimos.

¡Ánimo humanos, que remontamos!

No hay comentarios:

Publicar un comentario