Ayer os contaba sobre el Search Ranger de Bing, el sistema que tiene Microsoft para detectar y contrarrestar el webspam. Pero aunque ya el documento era bastante denso, la información que ofrecía era aún mayor… ¿Y cómo funciona ese sistema antiwebspam?
- Un sistema revisa las búsquedas habituales de spam en los resultados de búsqueda.
- Se extrae una serie de URL con posibilidad de ser spam, que usan actividades habituales de spammers.
- Un sistema recibe las URL de spam confirmadas y se aprende de ellas nuevas combinaciones de palabras spam, sistemas, relación con otras páginas, el dominio…
- Se hacen pruebas de búsqueda con el comando LINK: y SITE: de esa página y dominio con las palabras relacionadas.
La mayoría de los spammers buscan ganar dinero (más que el posicionamiento), por lo que las palabras habituales suelen estar relacionadas con temas comerciales. Pero estas consultas suelen tener resultados habituales y establecidos que son difíciles de competir, de forma que se vuelven menos atractivas y se intentan otras combinaciones a la hora de posicionarse.
El sistema de recolección de datos detecta las palabras basura de varias formas:
- Palabras clave en foros con un anchor-text determinado y/o muy repetido.
- Palabras separadas por guiones en URL habituales de spam.
- Palabras clave caras en sistemas de afiliación o plataformas de publicidad y que sean spameables.
- Quejas de los propios usuarios.
- Palabras erróneas que o suelen buscar los usuarios pero que van combinadas a otras palabras que sí lo son para los spammers.
Tras detectar infinidad de contenidos basura se han detectado varios sistemas habituales que usan los grandes spammers:
- Dominios con redirecciones: Estos sistemas suelen tener páginas puerta que acaban enviando el tráfico a los sitios de destino. También, por norma general, se usa un sistema de marcos (frames) para que no se vea el cambio de URL. De la misma forma que se puede redirigir por marcos a una misma URL o dominio, podemos encontrar páginas que comparten un mismo identificador de usuario de AdSense o un mismo identificador de afiliado de una plataforma concreta. Otra forma para identificar estos dominios será el del comportamiento en las propias páginas. Por ejemplo, llamamos a distintas direcciones URL que cargan una serie de imágenes que, aunque se llamen distintas, tienen un mismo formato, peso e incluso se cargan en el mismo orden.
- Lo que el usuario final acaba viendo: Normalmente las distintas páginas comparten una serie similar de direcciones IP.
- Información de Whois y agrupación de IP: Dominios que tienen la misma información (o similar) en su Whois y están alojadas en una serie de direcciones IP. Analizando desde donde vienen los enlaces y hacia dónde van.
- Consultas LINK:: Pueden ser resultados por similitud en la estructura de la URL o porque una dirección aparece como contenido relacionado de otra consulta anterior relacionada.
- Análisis por clic: Como comentaba al principio, vendría a ser el análisis de las páginas de destino a las que apunta una página puerta, aunque las direcciones sean distintas pero comparta un identificador único.
Para verificar que un sitio se confirma como spam se usan varios sistemas de identificación:
- Determinar que una página redirige a un nuevo dominio o IP que contiene elementos de spam.
- Cuando una consulta LINK: relaciona la dirección con foros (o similares) conocidos por tener un número elevado de textos spam.
- Páginas que reaccionan de forma distinta cuando hay o no activado el script o permiten cloacking basado en el navegador.
- Cuando hay variaciones entre los resultados de búsqueda dependiendo de si lleva referrer o no.
- Cuando la página sólo tiene enlaces de pago que envían tráfico mediante sistemas publicitarios.
- Que la página esté alojada en un dominio marcado como spammer.
- Cuando se produce un spam informativo, es decir, que la página cargue una serie de imágenes o contenidos de unos tamaños o especificaciones similares o en un orden determinado.
Un sistema de autoprotección de los propios resultados de búsqueda para evitar que se posicionen páginas con contenidos sospechosos, por ejemplo, sería evitando dominios posicionables debido a que todos los enlaces entrantes que tenga vengan de sitios de spam o por la aparición elevada en resultados de búsqueda de contenidos de spam, o la cantidad de URL de spam que tienen en relación a las páginas indexadas del buscador.
En el caso en que un spammer sea capaz de posicionar unas páginas debido a ingeniería inversa del buscador o por un error del sistema, de una forma automática se detectaría este problema analizando las diferentes páginas que han pasado los filtros e incorporándolas al sistema para corregir el procesado de nuevas páginas además de limpiar las páginas actuales.
Un ejemplo del sistema se realizó en base a una serie de 4.803 direcciones URL de spam confirmadas. De esta muestra se pudo sacar una serie de 35.878 foros de los que se extrajeron 1.132.099 anchor-text con un total de 6.026.699 ocurrencias. Estas pruebas se realizaron en Google, Yahoo! (antes de que fuera Bing) y Windows Live (ya que Bing no se había lanzado).
Aunque este sistema es antiguo (se preparó en 2007) la verdad es que deja entrever bastante bien le empeño que Microsoft está haciendo por mejorar los sistemas antispam de los resultados de búsqueda en cosas bastante automáticas (como son los factores externos) y no tanto en la calidad propia de los sitios, algo que vendría a ser lo que Panda está haciendo y que probablemente, en unos meses, comenzaremos a ver en Bing en Estados Unidos, antes de su aterrizaje por Europa y Latino América de forma masiva.
Deja una respuesta