El contenido duplicado se refiere a bloques de texto que son completamente idénticos entre sí (duplicados exactos) o similares con pequeñas diferencias, también conocidos como casi duplicados. En la SEO, el contenido duplicado se produce cuando este tipo de contenido aparece en varias URL o páginas web en el mismo o en diferentes sitios web.
Según Matt Cutts de Google, 25 a 30 por ciento de los contenidos se duplica en Internet. Para seguir con esta lógica, un reciente estudio de Raven Tools basado en los datos de su herramienta de auditoría nos da una cifra aproximada de 29 % para el mismo problema
Aunque este fenómeno suele ser involuntario, Google y otros motores de búsqueda penalizan indirectamente los sitios web con contenido duplicado
Para entender mejor este concepto, hay que discutir los siguientes puntos clave:
- Un breve resumen del significado de »contenido duplicado» y sus diferentes tipos;
- Las causas y las formas de detectarlas;
- Buenas prácticas para tratarlas.
Estas son algunas de las muchas preguntas clave a las que responderé con claridad y precisión a lo largo de esta guía.
¡Descubra más!
Capítulo 1: ¿Qué debemos entender sobre el «contenido duplicado»?
En este capítulo, explicaré los puntos principales sobre el contenido duplicado, tales como
- Un breve recordatorio de su definición;
- Los diferentes tipos que existen;
- Su impacto en la referenciación
1.1. Contenido duplicado: ¿Qué es?
El contenido duplicado es un bloque de texto que aparece varias veces en la web. Cuando un texto está presente en una única URL, se denomina contenido único. En caso contrario, se considera duplicado.
Para ser más claros, se trata del acto de copiar la producción de otros y publicarla en su sitio. En general, esta duplicación se realiza sin el permiso previo del autor.
Esto no sólo hace dudar de su capacidad para producir textos atractivos y originales, sino que además Google puede penalizar su SEO.
1.2) ¿Cuáles son los diferentes tipos de contenido duplicado?
El contenido duplicado no es sólo el resultado de la copia deliberada de textos o partes de ellos, sino que muy a menudo también :
- Causas técnicas relacionadas con el funcionamiento del CMS;
- Razones vinculadas a la gestión del catálogo de productos en el caso del comercio electrónico;
- Etc.
De estos casos que conducen a la generación de duplicados, se pueden deducir dos tipos de contenidos duplicados:
1.2.1. Contenido duplicado interno (en el mismo sitio)
El contenido duplicado interno se produce cuando hay una repetición de texto o partes de texto en dos o más páginas del mismo sitio web
El contenido duplicado interno suele ser de buena fe, ya que proviene principalmente de
- Errores técnicos;
- Configuración de la URL;
- Etc.
Cabe señalar que no se trata de un caso de robo de contenidos, sino de errores que conducen a la multiplicación de contenidos en diferentes URLs.
1.2.2. Contenido duplicado externo
Se trata de páginas en las que el texto es el mismo que se encuentra en otros sitios. Este tipo de contenido duplicado es el que provoca verdaderos conflictos.
Este caso se encuentra en particular en las fichas de productos de comercio electrónico, que contienen información técnica sobre los productos y sus funciones de uso.
En el comercio electrónico no es raro ver que algunas personas utilizan las descripciones de sus proveedores para sus productos. Esto hace que el mismo contenido textual esté presente en varios sitios web.
1.3. ¿Qué impacto puede tener el contenido duplicado en el SEO y la clasificación de un sitio web?
Debido a la confusión que el contenido duplicado provoca en las arañas de los motores de búsqueda, cualquier clasificación y notoriedad puede acabar dividida entre las URL duplicadas
Esto ocurre porque las arañas de los motores de búsqueda tienen que elegir qué página web creen que debe clasificarse para una palabra clave concreta.
Así, cada variante de la URL recibe diferentes puntuaciones de autoridad de página y poder de clasificación.
Pero con el tiempo, Google ha llegado a comprender que la mayor parte del contenido duplicado no se crea intencionadamente
Un análisis muestra que 50% de los sitios web se enfrentan a problemas de contenido duplicado.
El objetivo de Google es mostrar una diversidad de sitios en los resultados de búsqueda. En este caso, los rastreadores de los motores de búsqueda se ven obligados a elegir qué versión del contenido deben clasificar
En este caso, es posible que las producciones textuales que usted considere más apropiadas para un tema determinado no se clasifiquen debido a su similitud con otros contenidos existentes.
En pocas palabras, podemos resumir los problemas a los que se enfrentan los sitios web con el contenido duplicado en 3 puntos:
- Dificultad para clasificar los resultados de la búsqueda;
- Mostrar una experiencia de usuario pobre;
- Y la disminución del tráfico orgánico.
Por supuesto, estos no son los únicos problemas relacionados con el contenido duplicado, pero son los más dolorosos para un sitio.
Capítulo 2: ¿Cuáles son las causas y cómo detectar el contenido duplicado?
Como ya sugiere el título de este capítulo, después de explicar las causas del contenido duplicado, le mostraremos cómo puede detectarlo.
2.1. ¿Cuáles son las causas del contenido duplicado?
Hay muchas razones por las que se puede crear contenido duplicado, pero mencionaremos algunas:
2.1.1. »HTTP» frente a »HTTPS» y »WWW» frente a sin »WWW»
Añadiendo certificados SSL certificados a su sitio web es la mejor (o la única) manera de asegurarlo. Le permite transponer su sitio web de HTTP a HTTPS
Sin embargo, es una acción que da lugar a páginas duplicadas en su sitio web si no se redirige.
Además, como el contenido de su sitio web es accesible desde URLs con »WWW» y sin »WWW», la duplicación es inevitable.
Las siguientes URLs conducen todas a la misma página, pero serían consideradas como URLs completamente diferentes por las arañas de los motores de búsqueda:
Por lo tanto, hay que tener en cuenta que esta situación es la causa más común del problema de la duplicación.
2.1.2. Contenido raspado o copiado
Cuando otros sitios web «roban» el contenido de otro sitio, esto se llama raspado de contenidos. Si Google u otros motores de búsqueda no pueden identificar la versión original, pueden acabar clasificando la página que fue copiada de su sitio.
Este tipo de duplicación se produce a menudo en los sitios que tienen productos listados con descripciones del fabricante
Si el mismo producto se vende en varios sitios y todos ellos utilizan las descripciones del fabricante, se puede encontrar contenido duplicado en varias páginas de diferentes sitios.
2.1.3. Variaciones de la URL
Pueden producirse variaciones en las URLs de
- Identificación de la sesión
- Parámetros de consulta y mayúsculas
Cuando una URL utiliza parámetros que no cambian el contenido de la página, puede acabar creando una página duplicada.
Los identificadores de sesión funcionan de la misma manera. Para hacer un seguimiento de los visitantes de su sitio, puede utilizar los identificadores de sesión para rastrear lo que el usuario hizo mientras estaba en el sitio y a dónde fue
Para ello, se añade el identificador de sesión a la URL de cada página en la que se hace clic
Fuente Polepositionmarketing
Por lo tanto, el ID de sesión añadido en este caso crea una nueva URL a la misma página y, por lo tanto, se considera contenido duplicado.
Las mayúsculas no suelen añadirse intencionadamente, pero es importante asegurarse de que sus URLs sean coherentes y utilicen las minúsculas
Por ejemplo, twaino.com/blog y twaino.com/Blog se considerarían páginas duplicadas.
Ahora que conoce bien algunas de las causas del contenido duplicado, pasemos a detectarlas.
2.2 Cómo detectar el contenido duplicado
En esta sección, primero veremos las formas gratuitas de encontrar contenido duplicado, y luego las herramientas de detección.
2.2.1. Formas gratuitas de encontrar contenido duplicado
Aquí tiene algunas formas gratuitas que le permitirán hacerlo:
- Encuentre el contenido duplicado;
- Rastree qué páginas tienen múltiples URLs;
- Y descubra qué problemas están causando la aparición de contenido duplicado en su sitio.
2.2.1.1. Consola de búsqueda de Google
Google Search Console es una potente herramienta gratuita a su disposición. La configuración de su consola le ayudará a obtener visibilidad sobre el rendimiento de sus páginas web en los resultados de búsqueda
Utilizando el Cobertura en la pestaña Índice, puede encontrar las URL que pueden estar causando problemas de contenido duplicado.
Busque los problemas más comunes como:
- Versiones HTTP y HTTPS de la misma URL;
- Versiones www y no www de la misma URL;
- URLs con y sin barra «/» ;
- URL con y sin parámetros de consulta;
- URL con y sin mayúsculas;
- Consultas de cola larga con clasificaciones de varias páginas.
Mantenga un registro de las URL que descubra con problemas de duplicación para poder revisarlas
2.2.2.2. Comprobador de contenido duplicado
SEO Review Tools ha creado este comprobador de contenido duplicado para ayudar a los sitios web a combatir el robo de contenidos. Al introducir su URL en su herramienta de comprobación, puede obtener una visión general de las URL externas e internas que duplican la URL introducida.
Esto es lo que se encontró cuando introduje «https://www.twaino.com/» en el comprobador:
Encontrar el contenido duplicado externo es muy importante. Como recordatorio, el contenido duplicado externo ocurre cuando alguien roba el contenido de su sitio.
Una vez descubierto, puede enviar una solicitud de eliminación a Google y eliminar la página duplicada.
2.2.2. Herramientas para encontrar contenido duplicado
A continuación le presentamos un resumen de las principales herramientas, tanto gratuitas como de pago, para detectar el contenido duplicado interno y externo.
2.2.2.1 Copyscape
Lanzado en 2004, Copyscape es la herramienta más conocida para combatir el plagio y el robo de contenidos. Esta herramienta ofrece un servicio gratuito y otro de pago.
No es necesario registrarse para utilizar la versión gratuita, sólo tiene que introducir la URL de la página que desea comprobar y hacer clic en «Ir».
Pero el defecto de esta herramienta en su versión gratuita es que no puede reconocer a los usuarios, ya que no es necesario registrarse antes de utilizarla
Por lo tanto, no obtendrá ningún resultado si alguien ya ha realizado la misma búsqueda.
La versión de pago de esta herramienta le permite:
- Introduzca el texto a comprobar;
- Busque en más de 10.000 páginas;
- Excluya ciertas áreas de la búsqueda
El coste es de 0,05 dólares por búsqueda.
2.2.2.2 Dupli Checker
Dupli Checker le permite comprobar el texto introducido manualmente o cargado desde un archivo. A continuación, es posible realizar una comparación con los resultados detectados, averiguando el porcentaje del mismo texto.
2.2.2.3 Plagiarisma
Plagiarisma le permite comprobar sólo Bing en la versión gratuita. Sólo tiene que pegar el texto a comprobar o la URL de la página para iniciar la comprobación
Existe una versión de pago que da acceso a funciones adicionales a un coste de 0,05 dólares por búsqueda.
2.2.2.4 Plagio
Plagium tiene dos versiones: gratuita y de pago. El primero ofrece un número limitado de búsquedas y sólo funciona introduciendo el texto que desea comprobar
La segunda cuesta 0,07 dólares por búsqueda y permite obtener un mayor número de resultados, ya que se realiza una búsqueda más profunda. Con la versión de pago también puede comprobar documentos en formato Word o PDF.
2.2.2.5 PlagScan
PlagScan es un servicio muy completo, pero de pago, con paquetes a partir de 4,99 dólares para búsquedas de 5000 palabras
Además de identificar las páginas con texto duplicado, también puede ver dónde se encuentra y comparar diferentes páginas.
2.2.2.6 Quetext
Sería casi imposible hacer una lista de herramientas de detección de plagio sin mencionar a Quetext, que goza de una importante popularidad.
Es una herramienta bien desarrollada y eficaz para detectar páginas web con contenido similar al suyo.
También puede seleccionar la opción «calcular la puntuación de similitud» para obtener resultados más precisos.
Una vez detectados los duplicados en su sitio, será fácil eliminarlos.
Capítulo 3: Cómo eliminar o evitar el contenido duplicado
La eliminación del contenido duplicado ayudará a garantizar que la página correcta sea accesible e indexada por las arañas de los motores de búsqueda
Sin embargo, es posible que no quiera eliminar todo el contenido duplicado, sino indicar a los motores de búsqueda cuál es la versión original que debe indexar
Así es como puede hacerlo:
3.1. etiqueta rel = «canonical»
Esto es gracias al atributo Rel = etiqueta canónica atributo que las arañas de los motores de búsqueda reconocen la versión duplicada de la URL de una página
Los motores de búsqueda enviarán entonces todos los enlaces y el poder de clasificación a la URL especificada, ya que la considerarán como la versión original.
El uso de la rel = canónico no eliminará la página duplicada de los resultados de la búsqueda. Simplemente permite que las arañas de los motores de búsqueda sepan qué página original debe beneficiarse en tiempo real de la equidad de los enlaces
Estas etiquetas rel = canonical son útiles cuando no es necesario eliminar la versión duplicada, como en el caso de las URL con parámetros o barras finales.
3.2. Redirecciones 301
El uso de un redirección 301 la redirección es la mejor opción si no quiere que la página duplicada sea accesible
Cuando se establece una redirección 301, se indica al rastreador del motor de búsqueda qué página está recibiendo todo el tráfico y los valores de SEO.
A la hora de decidir qué página mantener y qué páginas redirigir, busque la que tenga mejor rendimiento y esté más optimizada
Si combina varias páginas que compiten por las posiciones de clasificación en un solo contenido, creará una página más fuerte y relevante que preferirán tanto los motores de búsqueda como los usuarios.
3.3. Robots Meta Noindex
El etiqueta noindex es un fragmento de código que se añade a la cabecera HTML de la página que se desea excluir de los índices de los motores de búsqueda
Cuando se añade el código «content = noindex, follow», se está diciendo a los motores de búsqueda que rastreen los enlaces de la página, pero se les impide añadir ese contenido a sus índices.
La etiqueta noindex también es útil para gestionar el contenido duplicado en paginación. La paginación se produce cuando el contenido abarca varias páginas, lo que da lugar a múltiples URL
3.4. Etiqueta canónica autorreferencial
Para evitar el scraping de contenidos, puede añadir la metaetiqueta rel = canonical que apunta a la URL donde ya se encuentra la página, esto crea una página autocanónica.
Añadir esta etiqueta indicará a los motores de búsqueda que la página actual es la original.
Cuando se copia un sitio, el código HTML se extrae del contenido original y se añade a una URL diferente
Si la etiqueta canónica se incluye en el código HTML, probablemente también se copiará en el sitio duplicado, conservando así la página original como versión canónica
Es importante tener en cuenta que se trata de una protección adicional que sólo funcionará si los raspadores de texto copian esta parte del código HTML.
Capítulo 4: Otras preguntas sobre el contenido duplicado
4.1. ¿Qué es el contenido duplicado?
El contenido duplicado es cuando hay dos o más contenidos idénticos o similares dentro o fuera de un sitio web.
4.2. ¿Qué tan malo es el contenido duplicado para el SEO?
El contenido duplicado es malo por dos razones principales:
Cuando hay varias versiones de contenido disponibles, se reduce el rendimiento de todas las versiones del contenido, ya que compiten entre sí.
También dificulta que los motores de búsqueda determinen qué versión deben indexar y mostrar en sus resultados de búsqueda
4.3. ¿Cuáles son los diferentes tipos de contenido duplicado?
Hay dos tipos de contenido duplicado:
- El contenido duplicado interno se produce cuando un dominio crea contenido duplicado a través de varias URL internas (en el mismo sitio web).
- El contenido duplicado externo, también conocido como duplicación entre dominios, se produce cuando dos o más dominios diferentes tienen la misma copia de página indexada por los motores de búsqueda.
La duplicación externa e interna puede ocurrir como duplicados exactos o casi duplicados.
4.4. ¿Cuáles son los riesgos SEO del contenido duplicado?
Técnicamente, el contenido duplicado todavía puede tener un impacto en las clasificaciones de los motores de búsqueda. Cuando hay más de una pieza de contenido muy similar, los motores de búsqueda tienen dificultades para intentar descifrar la mejor versión.
Algunos de los problemas que los sitios web pueden experimentar con el contenido duplicado son Dificultad de posicionamiento en los resultados de búsqueda, disminución del tráfico orgánico, etc.
4.5. ¿Cómo evitar el contenido duplicado en su sitio?
Para evitar el contenido duplicado, tiene dos posibilidades:
- Utilice GSC para ver las URL con contenido duplicado en su sitio;
- Utilice una herramienta de detección de plagio de pago.
4.6. ¿Qué es copiar y pegar en la escritura web?
Copiar y pegar es la práctica de copiar el texto completo de una página interna o externa de un sitio para producir un nuevo contenido. Esta práctica también se conoce como plagio y es una gran amenaza para el propietario del sitio web.
4.7. ¿Penaliza Google el contenido duplicado?
¡SI! Copiar el trabajo de otra persona sin tomar precauciones no sólo puede afectar a la clasificación SEO de su sitio, sino que también puede provocar su desindexación del índice de Google.
En resumen
Aunque el contenido duplicado no suele crearse intencionadamente, puede dañar indirectamente su valor SEO y su potencial de clasificación si no se le presta atención.
Cuando sepa cómo tratar el contenido duplicado en su sitio web, a las arañas de los motores de búsqueda les resultará más fácil desempeñar su papel en la indexación y clasificación de su sitio web.
Por eso nos hemos tomado el tiempo de detallar cada uno de los puntos mencionados en la introducción de este artículo
Depende de usted ver hasta qué punto estas diferentes nociones le permitirán optimizar su sitio web de forma eficaz.
Y si tiene otros consejos para luchar contra el contenido duplicado, no dude en compartirlos con nosotros en los comentarios.
¡Hasta pronto!