Contenido duplicado. La guía definitiva

Contenido Duplicado, Google Panda

Por SEOEstudios

22 de julio de 2015

Si acabas de lanzar tu página web  y estás optimizándola a nivel de contenidos para que los motores de búsqueda te miren con buenos ojos, probablemente hayas leído algo de información acerca del contenido duplicado. Ya deberías saber que el contenido es el rey, y por tanto éste debe ser 100% original, con que copiar contenido no puede entrar en nuestros planes. De lo contrario el algoritmo que creó Google para combatirlo, Google Panda nos “cogerá” y nos lanzará unas cuantas posiciones más lejos de lo deseado en los famosos rankings. Esto no significa que nos penalice pero nuestra página web se verá claramente afectada.

«El contenido es el rey»

La aparición del mismo contenido en varios sitios web dificulta a los motores de búsqueda la indexación de la fuente original, es decir, Google no sabe cuál es el verdadero contenido de valor y por tanto puede no lo indexará o simplemente perderá relevancia  en los resultados de búsqueda.

El contenido duplicado puede proceder de la copia deliberada de textos originales de otro sitio web (contenido duplicado externo). Pero también puede ser consecuencia de las diferentes versiones de nuestro contenido que queremos aportar al usuario y que por error no estamos tratando adecuadamente y por tanto podemos ser perjudicados. Este segundo caso es el que vamos a tratar en la entrada de hoy: Cómo implementar las técnicas necesarias para ayudar a los buscadores a indexar nuestro contenido evitando el contenido duplicado.

Causas habituales

Como decimos este contenido no necesariamente procede siempre de la copia deliberada de textos, sino que podemos tener contenido duplicado en nuestra web sin darnos cuenta.  Así que atentos a los errores más habituales que generan contenido duplicado para tomar nota y empezar a solucionar las duplicidades que puede haber en vuestros sitios:

1.    No establecer dominio preferido

Por defecto el nombre de dominio de tu página web se puede mostrar con o sin www.  Con lo que tendríamos dos páginas exactamente iguales. Por lo que debemos decirle a los buscadores cuál es el dominio preferido y la que se llevará todo el valor SEO. Si nos enfocamos solamente a Google podemos utilizar la herramienta Google Webmaster Tools (actualmente Search Console) para establecer el dominio “canónico” (preferido).

2.    Parámetros

Algunas páginas utilizan parámetros en las URLs para controlar el contenido dinámico, es decir, los cambios que debe ver el usuario como consecuencia de su interacción con la web. Uno de los ejemplos más típicos es el de la paginación. Si tenéis una tienda online sabéis de lo que os estamos hablando. Normalmente tendremos una URL similar a la siguiente para mostrar nuestro catálogo de productos:

http://www.dominio-ejemplo.com/categoria-producto/listado-de-productos.html

Si el listado de productos es muy largo la página puede utilizar paginación para mostrar el contenido al usuario de una forma más práctica, generando una URL como la siguiente:

http://www.dominio-ejemplo.com/categoria-producto/listado-de-productos.html?page=2

Y cuando queramos volver a la página 1 de nuevo encontraremos una URL con parámetros para controlar lo que se muestra.

http://www.dominio-ejemplo.com/categoria-producto/listado-de-productos.html?page=1   

Esto causaría una gran cantidad de contenido duplicado en la medida en la que el rastreador del buscador interpretaría cada URL como una diferente con el mismo contenido.

3.    Versiones

Hoy por hoy es muy común tener diferentes versiones de una web, principalmente por el desarrollo de versiones móviles, imprimibles o multilenguaje. En estos casos, es probable que tengamos subdirectorios o subdominios de nuestra web que generen diferentes URLs para el mismo contenido. Ejemplos:

http://www.mobile.dominio-ejemplo.com/

(móvil)

 http://www.dominio-ejemplo.com/print/ficha-producto/

(imprimible)

Consecuencias del contenido duplicado

1.    El robot decide la correcta

El robot de rastreo, GoogleBot, decide cuál es la versión válida por lo que puede no indexar tu URL. En el caso de contenido duplicado interno, podrías estar desperdiciando tus esfuerzos SEO en una página que no se está indexando.

2.    Indexación defectuosa

Googlebot dispone de un tiempo limitado para  visitar tu página web, con lo que no podemos dejarle perder el tiempo en páginas duplicadas porque eso causará que visite las más importantes con menos frecuencia, incluso que no llegue a indexarlas.

3.    Desperdicio de enlaces y métricas SEO

Si hemos conseguido enlaces de gran autoridad hacia páginas de nuestro dominio que no se están indexando, estaremos desperdiciando el valor SEO que esos enlaces nos aportarían.

Cómo detectar el contenido duplicado

Ahora que conoces las consecuencias te estarás preguntando si estás incurriendo en uno de estos errores SEO. Pero, ¿Cómo saberlo? Tranquilo, existen numerosas herramientas para ayudarnos a encontrar contenido duplicado en nuestra página web. Estas son las más utilizadas (omitiendo las de pago):

Siteliner. Herramienta online que nos indica las URLs en las que hay un porcentaje elevado de contenido idéntico.

Screaming Frog. Aplicación de escritorio con funcionalidades muy similares a la anterior entre las que se incluye la que nos interesa. Debes descargarla y ejecutarla en tu equipo con las limitaciones o ventajas que ello supone.

Google Webmaster Tools. Dentro de la suite de herramientas para webmasters que nos proporciona Google, podemos encontrar un apartado de mejoras en el código  HTML, que nos indicará duplicidades de etiquetas meta (estas deben ser siempre originales) que debamos corregir.

Soluciones para evitar contenido duplicado

En uno de nuestros artículos anteriores, ya os adelantábamos cómo evitar el contenido duplicado. Repasemos las opciones:

1.    Redirección 301

Esta opción se utiliza cuando cambiamos el contenido de una página cuya URL ya está indexada, a una nueva URL sin variar los textos. Para ello necesitaremos ayuda de un programador. Se trata de insertar un bloque de código en el archivo de configuración de nuestro servidor (.htaccess en servidores Apache).

2.    Rel Canonical

La etiqueta <link> con el atributo “rel=canonical” es una de preferidas por los webmasters. El objetivo de este método es indicarle a los motores de búsqueda cuál es la URL que deseamos indexar. Para ello simplemente tenemos que insertar la siguiente etiqueta en la cabecera del código HTML de nuestra página.

<link href="http://www.dominio-ejemplo.com/version-a-indexar/" rel="canonical" />

Siendo el enlace que incluimos en el código, la página que deseamos que los motores de búsqueda indexen y por ende muestren en los resultados de búsqueda. Esta etiqueta se debe colocar en todas las páginas similares a la “canonica”, para que Google las descarte y tome solo la indicada. Ten cuidado al utilizar esta técnica y no cometas los errores comunes al utilizar rel=canonical.

3.    Robots

Una alternativa al uso de rel=canonical para decirle cuál es la versión “oficial” es realizar lo contrario, es decir, indicarle a los robots cuáles no se deben indexar a través de la etiqueta robots.

<meta name="robots" content="noindex, follow" />

Debes insertarla en el código HTML de las páginas que no desees que sean indexadas por buscadores. Lo bueno es que el buscador seguirá rastreando los enlaces que se encuentran en ella aunque no la guarde en su índice. Esto también puedes hacerlo a través del comando disallow en archivo robots.txt.

¿Alguna duda sobre contenido duplicado? ¡Anímate deja tu comentario!

COMPARTIR
artículos RELACIONADOS