Con mucha frecuencia me llegan correos de personas que tienen un sitio web pequeño y que han sido penalizados (o degradados) por Google de alguna manera. Hoy, tomando como ejemplo uno de estos correos, voy a explicaros cómo se puede arreglar una penalización (de las más sencillas) con tan sólo utilizar Google como herramienta (sin Webmaster Tools o Analytics). Esto significa que lo único que necesitamos es un navegador y un poco de imaginación.
El sitio en cuestión es juegostt.com y su problema es que ha caído el tráfico mucho. Lo primero que he hecho es darle una ojeada al sitio para ver si había algún error garrafal o simplemente es un sitio spam, pero básicamente tiene casual games. Hasta aquí todo bastante correcto, sin entrar muy en detalle.
El siguiente paso ha sido revisar el robots.txt:
User-agent: *
Allow: /
Disallow: /ver/
Disallow: /page/0/
User-agent: Mediapartners-Google
Allow: /
Pero antes se hacer una propuesta de robots.txt, vamos a hacer unas cuantas consultas de búsqueda. Para empezar la que nos muestre cuántas páginas hay indexadas del sitio:
Podemos ver que hay 6.610 páginas indexadas y una serie de combinaciones de carpetas y ficheros. Los siguientes pasos son establecer la idea de arquitectura de URLs que hay (sin entrar en el propio sitio web). Para ello voy a hacer las siguientes consultas:
site:juegostt.com -inurl:juegos-de
site:juegostt.com -inurl:juegos-de -inurl:juegos-mas
site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag
site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page
site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf
En este momento ya vemos que al final de la página nos indica que hay «elementos no relevantes» por lo que pulsaremos y veremos el 100% de los ficheros indexados:
site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf
¿Qué hacer en este momento? Pues ir revisando cada uno de estos «bloques» o «carpetas» o «ficheros» de forma autónoma. Por ejemplo, y empecemos por el final… los ficheros SWF, en este caso que son juegos, no hace falta que Google los rastree, por lo que eliminaremos la indexación de esa carpeta a través del robots.txt. De la misma forma, las paginaciones sólo hacen que generar contenidos duplicados y no sirven para «posicionarse» bien, así que, aunque sirven para el rastreo de los contenidos, lo mejor es eliminarlo.
En los resultados de Google que habían quedado nos encontramos con algunas páginas que aunque legalmente han de estar en la web, no hace falta que estén en los resultados de búsqueda. Estas páginas como proteccion-de-datos.html
, aviso-legal.php
, aviso-legal.html
, enlaces/
, webmasters/
o toda la carpeta sitemaps/data/
no influyen negativamente en los resultados de búsqueda, pero tampoco sirve de nada que estén, así que vamos a incorporarles una meta etiqueta de noindex.
<meta name="robots" content="noindex">
Ahora nos quedan las carpetas siguientes: juegos-de, juegos-mas y tag. Si «activamos» el filtro en la búsqueda, quedando algo como esto:
site:juegostt.com -inurl:juegos-de -inurl:juegos-mas inurl:tag -inurl:page -inurl:swf
sólo deberíamos ver lo que hay en esas carpetas. Debemos revisar dos cosas, la primera que estas páginas no tengan paginación… y en caso de que la tuvieran deberíamos filtrarlas a través del fichero de robots.txt; la segunda es revisar aquellas páginas que tienen 0 resultados (en las que debemos devolver un código de error 404) y las que tienen 1 o 2 resultados (en las que, de nuevo, usaremos la meta-etiqueta de noindex) que hemos de filtrar para que no se consideren contenidos duplicados, ya que es muy probable que varias tags acaben dando resultados de las mismas páginas.
Si ahora hacemos lo mismo con «juegos-mas» tendremos algo como:
site:juegostt.com -inurl:juegos-de inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf
y en este caso esta página sólo es una paginación de casi 200 páginas que no aportan nada (y que tienen títulos duplicados, al igual que descripciones. Es por ello que, excepto la primera página el resto las eliminaremos a través del robots.txt.
Y para acabar, la revisión de donde más contenidos hay, la categorización de las fichas de juegos. Ejecutaremos una consulta similar a la anterior…
site:juegostt.com inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf
Aquí tenemos una estructura compleja (no es la que yo usaría, pero eso ahora no toca). Tenemos por un lado las carpetas «raíz» que corresponden a las categorías propiamente dichas, de las que cuelgan dos tipos de contenido, los juegos y las paginaciones. Como ya hemos quedado anteriormente, las paginaciones no las vamos a indexar, pero hemos de buscar la forma de filtrar todo en el fichero de robots sin fastidiar el resto de elementos.
Mi propuesta de fichero de robots.txt es la siguiente:
Sitemap: http://juegostt.com/sitemap.xml
User-Agent: *
Disallow: /swf/
Disallow: /page/
Disallow: /juegos-mas-jugados/
Allow: /juegos-mas-jugados/
Disallow: /juegos-de-*/*/
Disallow: /ver/
User-Agent: Mediapartners-Google
A parte de todo esto hay un detalle que hay que añadir, que es el uso del rel=canonical en todas las páginas (excepto en aquellas que tienen el noindex). Con esto conseguiremos que, además de eliminar los contenidos duplicados de las páginas existentes, no se puedan generar contenidos duplicados de páginas nuevas que puedan aparecer por error.
Que conste que esto es una revisión MUY básica pero que es muy recomendable hacer en todos los sitios. Esto no es SEO, es HACER LAS COSAS BIEN, pero es un ejercicio que muchas veces no hace nadie cuando se plantea un proyecto y que es básico tanto para los usuarios como para los motores de búsqueda.
Deja una respuesta