¿Por qué Google no indexa un sitio web?

La web es un lugar casi infinito, por lo tanto, Google y demás motores de búsqueda no tienen la capacidad de rastrear e indexar todos los sitios y URLs. La cantidad de tiempo y recursos que le dedican las arañas web a cada sitio es limitado y se le conoce como “presupuesto de rastreo”.

Incluso si las arañas web pasan por todo un sitio, esto no quiere decir que deba ser indexado por completo. Cada página se analiza y se determina si debe ser indexada o no.

El límite de capacidad de rastreo y demanda de rastreo determinan el presupuesto de rastreo para cada sitio web.

Si trabajas con un sitio web, principalmente grande, te habrás dado cuenta de que algunas páginas no se indexan y en ocasiones tardan hasta semanas en ser indexadas.

Existen diversos factores como calidad del contenido, enlaces o hasta factores complejos y técnicos.

A continuación, te mencionaré como abordarlos y mitigarlos.

Principales problemas de indexación

Existen diversas situaciones por las cuales Google no indexa nuestro contenido, estas son los más frecuentes:

Google Search Console nos brinda algunas pistas para deducir porque nuestro contenido no ha sido indexado.

Etiqueta "noindex"

Probablemente, hayas enviado tu sitemap a Google, pero si colocaste la etiqueta noindex no se indexarán.

Esta etiqueta se ve de esta manera:

< meta name="robots" content="noindex"/ >

Puedes colocar esta etiqueta de individual (página por página) o total (todo el sitio). Esto es muy conveniente si el sitio está en desarrollo y no quieres que las arañadas lo indexen contenido.

En WordPress existe un botón para eso, que se encuentra en: Ajustes → Lectura.

Wordpress noindex button

Simplemente desactívalo y listo 😉

Para corroborar que este error no sea tu caso, ingresa a Google Search Console y utiliza la herramienta de inspección de URL.

Bloqueo robots.txt

Casi todos los sitios web tienen un archivo con nombre "robots.txt". Este archivo determina que páginas de tu sitio o todo el sitio pueda ser indexado por los motores de búsqueda.

Si has bloqueado tu sitio o partes de este, Google Search Console te informará siempre y cuando hayas enviado un mapa de sitio.

Dirígete al informe de cobertura y busca "URL enviada bloqueada por robots.txt" o has una prueba en "Probar bloqueo de robots.txt"

Rastreado: actualmente no indexado

Google visitó una página de tu sitio web, pero no la indexó. Este es un problema de calidad de contenido, esto incluye contenido insuficiente, engañoso o excesivamente sesgado en tu página.

Si tu página no proporciona el contenido único y valioso, Google no tendría por qué mostrarla a los usuarios, en definitiva, será difícil de indexar o nula.

Contenido duplicado

Este es el principal problema de indexación. Incluso si no lo hiciste intencionalmente, los motores de búsqueda pueden interpretar algunas páginas de tu sitio como contenido duplicado.

Esto se da frecuentemente en sitios web de comercio electrónico donde los productos de un mismo sitio son similares unos de otros o las descripciones de productos son iguales o similares de otro e-commerce.

Contenido duplicado por idiomas

Un sitio web traducido en varios idiomas automáticamente será tomado con contenido duplicado, si deseas evitar esto deberás realizar un nuevo contenido en el idioma correspondiente, de lo contrario habrá páginas de tu sitio que no serán indexadas.

Contenido duplicado por competidores

Si tienes un e-commerce evita copiar y pegar las descripciones de productos. Crear contenido original y que aporte valor al usuario, demanda tiempo y recursos. Si tu contenido es legendario no tendrás problemas de indexación.

Contenido duplicado en un mismo sitio web

Es muy común tener páginas con contenidos similares, principalmente en sitios grandes. Para resolver esto tienes dos opciones:

  1. Unificar el contenido en una sola página y aplicar redireccionamientos 301.
  2. Utilizar rel = "canonical". Esto le indica a Google cuál página es la que debe pasar con mayor frecuencia la araña web, considerará las otras como duplicados y garantiza que las mismas páginas de su sitio web no compitan entre sí la clasificación en los buscadores.

Rastreada: actualmente sin indexar

La página de tu sitio ha sido rastreada por las arañas web, pero no ha sido indexada. Esto no quiere decir que nunca lo hará, aunque normalmente la posibilidad es muy poca.

Si en un periodo de tiempo no notas ningún cambio, intenta replantearte los siguientes puntos:

  • Falsos positivos
  • Feeds RSS
  • URL con paginación
  • Páginas no disponibles
  • Poco contenido
  • Contenido duplicado
  • Redirecciones 301
  • Contenido privado o en desarrollo
  • Estás haciendo Cloaking

Descubierto: actualmente no indexado

Google ha descubierto tu página, pero no la ha rastreado. En la mayoría de los casos esto se debe porque ha determinado que al hacerlo el sitio web se sobrecargaría y el rastreo se ve aplazado. Por lo tanto, la fecha de rastreo más reciente no aparece en el informe de Search Console.

Error 404

Esto quiere decir que la URL no existe o ha sido cambiada a otra dirección. Para solucionar esto es crear una redirección 3XX.

Conclusión

Aparecer en el índice de cualquier motor de búsqueda es imprescindible y solucionar este tipo de inconvenientes puede ser un dolor de cabeza, sobre todo para sitios web enormes. Afortunadamente, Google Search Console nos brinda pistas para efectuar soluciones de forma eficaz, y tú ¿tienes problemas de rastreo?.

Carlos Huesca
Copyright © 2021
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram