La web es un lugar casi infinito, por lo tanto, Google y demás motores de búsqueda no tienen la capacidad de rastrear e indexar todos los sitios y URLs. La cantidad de tiempo y recursos que le dedican las arañas web a cada sitio es limitado y se le conoce como “presupuesto de rastreo”.
Incluso si las arañas web pasan por todo un sitio, esto no quiere decir que deba ser indexado por completo. Cada página se analiza y se determina si debe ser indexada o no.
El límite de capacidad de rastreo y demanda de rastreo determinan el presupuesto de rastreo para cada sitio web.
Si trabajas con un sitio web, principalmente grande, te habrás dado cuenta de que algunas páginas no se indexan y en ocasiones tardan hasta semanas en ser indexadas.
Existen diversos factores como calidad del contenido, enlaces o hasta factores complejos y técnicos.
A continuación, te mencionaré como abordarlos y mitigarlos.
Existen diversas situaciones por las cuales Google no indexa nuestro contenido, estas son los más frecuentes:
Google Search Console nos brinda algunas pistas para deducir porque nuestro contenido no ha sido indexado.
Probablemente, hayas enviado tu sitemap a Google, pero si colocaste la etiqueta noindex no se indexarán.
Esta etiqueta se ve de esta manera:
< meta name="robots" content="noindex"/ >
Puedes colocar esta etiqueta de individual (página por página) o total (todo el sitio). Esto es muy conveniente si el sitio está en desarrollo y no quieres que las arañadas lo indexen contenido.
En WordPress existe un botón para eso, que se encuentra en: Ajustes → Lectura.
Simplemente desactívalo y listo 😉
Para corroborar que este error no sea tu caso, ingresa a Google Search Console y utiliza la herramienta de inspección de URL.
Casi todos los sitios web tienen un archivo con nombre "robots.txt". Este archivo determina que páginas de tu sitio o todo el sitio pueda ser indexado por los motores de búsqueda.
Si has bloqueado tu sitio o partes de este, Google Search Console te informará siempre y cuando hayas enviado un mapa de sitio.
Dirígete al informe de cobertura y busca "URL enviada bloqueada por robots.txt" o has una prueba en "Probar bloqueo de robots.txt"
Google visitó una página de tu sitio web, pero no la indexó. Este es un problema de calidad de contenido, esto incluye contenido insuficiente, engañoso o excesivamente sesgado en tu página.
Si tu página no proporciona el contenido único y valioso, Google no tendría por qué mostrarla a los usuarios, en definitiva, será difícil de indexar o nula.
Este es el principal problema de indexación. Incluso si no lo hiciste intencionalmente, los motores de búsqueda pueden interpretar algunas páginas de tu sitio como contenido duplicado.
Esto se da frecuentemente en sitios web de comercio electrónico donde los productos de un mismo sitio son similares unos de otros o las descripciones de productos son iguales o similares de otro e-commerce.
Un sitio web traducido en varios idiomas automáticamente será tomado con contenido duplicado, si deseas evitar esto deberás realizar un nuevo contenido en el idioma correspondiente, de lo contrario habrá páginas de tu sitio que no serán indexadas.
Si tienes un e-commerce evita copiar y pegar las descripciones de productos. Crear contenido original y que aporte valor al usuario, demanda tiempo y recursos. Si tu contenido es legendario no tendrás problemas de indexación.
Es muy común tener páginas con contenidos similares, principalmente en sitios grandes. Para resolver esto tienes dos opciones:
La página de tu sitio ha sido rastreada por las arañas web, pero no ha sido indexada. Esto no quiere decir que nunca lo hará, aunque normalmente la posibilidad es muy poca.
Si en un periodo de tiempo no notas ningún cambio, intenta replantearte los siguientes puntos:
Google ha descubierto tu página, pero no la ha rastreado. En la mayoría de los casos esto se debe porque ha determinado que al hacerlo el sitio web se sobrecargaría y el rastreo se ve aplazado. Por lo tanto, la fecha de rastreo más reciente no aparece en el informe de Search Console.
Esto quiere decir que la URL no existe o ha sido cambiada a otra dirección. Para solucionar esto es crear una redirección 3XX.
Aparecer en el índice de cualquier motor de búsqueda es imprescindible y solucionar este tipo de inconvenientes puede ser un dolor de cabeza, sobre todo para sitios web enormes. Afortunadamente, Google Search Console nos brinda pistas para efectuar soluciones de forma eficaz, y tú ¿tienes problemas de rastreo?.