¿Qué es la indexación o indexar un contenido? Y cómo podemos mejorarla en nuestra web

La indexación es uno de los procesos más importantes que Googlebot (la araña de Google que va rastreando nuestras páginas) lleva a cabo, es el proceso de añadir al índice de Google nuestras páginas y debemos ponérselo muy fácil porque una página que no ha sido indexada no podrá posicionar nunca.

La indexación es el proceso mediante el cual la araña de Google (GoogleBot) almacena en sus bases de datos el contenido que ha rastreado.

Como veremos más adelante existen muchos motivos por los que Google puede no indexar una URL de tu web, no sólo porque no la haya rastreado, a veces puede ser incluso que no la indexe por que tenga contenido pobre (thin content), por un error 404 o 505 del servidor o porque la hayamos bloqueado desde robots.txt o etiqueta noindex como veremos más adelante.

También puede ser que usemos tecnologías poco accesibles a los rastreadores como AJAX o Javascript, aunque en principio el buscador ya puede rastrear e indexar casi todo este tipo de contenido siempre nos podemos encontrar con problemas por lo que es importante tenerlos en cuenta y revisar estos puntos.

Si eres SEO y quieres posicionar webs en buscadores como Google (que es el que te recomiendo con un 94% de las búsquedas mundiales) para ganar tráfico orgánico a tus sitios, el primer paso que debes dar es conocer cómo funcionan los buscadores, no olvides que no deja de ser un software y tienen unos procesos muy definidos.

 

¿Qué es la indexación?

Conocemos como indexación en SEO al hecho de que los rastreadores de los buscadores (o spiders) almacenen la información que han rastreado para clasificarla y ofrecerle a los usuarios que realicen una consulta, la clave en esta definición es que almacenen, porque en el proceso de rastreo GoogleBot puede ir procesando mucha información y eso no significa que almacene todo ese contenido en el índice de Google.

Si vas a realizar una auditoría SEO, comprobar la indexación del sitio web es una de los primeros pasos que debes llevar a cabo, porque sin indexación no hay posicionamiento posible, si Google no indexa nuestras páginas no podrá mostrar esos resultados a los usuarios, no harán click en ellos, no recibiremos tráfico y nuestra cuenta de Analytics estará triste… 🙁

Cómo funciona GoogleBot

Aunque lo conocemos con un nombre «global» GoogleBot, lo cierto es que existen varios spiders y que están enfocados cada uno en tareas muy concretas, entre otros: GoogleBot Images (imágenes), Googlebot News (noticias), Google AdsBot (anuncios de Google), GoogleBot Video (vídeos), etc…

El proceso de GoogleBot es algorítmico, es decir, no sale «como pollo sin cabeza» a tratar de rastrear e indexar nuevas webs, sino que lo hace a páginas concretas, con una frecuencia de rastreo y una profundidad establecidas, para, entre otras cosas, no saturar el propio servidor donde se aloja la página web.

La frecuencia de rastreo y el crawl budget son valores asignados a cada página según su importancia o PR (PageRank un valor que ya no es público pero que Google sigue usando posiblemente de forma interna), por lo tanto cuando empiezas con una página estos serán valores bajos, pero a medida que posicionas y ganas autoridad Google irá concediendo mayor frecuencia de rastreo y mayor crawl budget a tu página de forma automática.

1 Rastreo – No existe un registro único de internet donde aparezcan todas las páginas que existen, la única forma que tiene Google de añadir nuevas páginas es recorriendo las que ya conoce y para eso hace uso de un spider o araña, Googlebot, que va descubriendo aquellas nuevas que se enlacen y no estén en sus registros o bien a través de acciones de usuarios como enviarlas con un Sitemap, o a través de GSC, etc…

2 IndexaciónUna vez que GoogleBot ha leído el contenido (y sino hay nada que se lo impida, como una etiqueta Noindex, un bloqueo en el archivo robots.txt, etc…) procederá a indexar esas páginas para mostrarlas una vez que los usuarios ejecuten sus querys en el buscador.

3 Publicación – O clasificación, en éste último apartado entra en juego el «temido» algoritmo de Google, encargado de ordenar los resultados que aparecerán en las SERPs según cientos de factores establecidos como autoridad, calidad del contenido, tiempo de carga… pero también según el usuario que realiza la búsqueda, ubicación geográfica, tipo de dispositivo, etc.

 

Mejora la indexación de tu web

Mantener tu web accesible e indexable a los rastreadores de los buscadores como Google es la mejor forma de empezar una estrategia de posicionamiento web, sin indexación, ya lo he repetido mil veces, no hay posicionamiento, así vamos a ver 6 puntos importantes mediante los cuales puedes mejorar la indexación de tu página web.

✅ GSC (Google Search Console) – Ya sabes, o debería saber, que GSC es la suite de herramientas que Google facilita a los webmasters para conocer el estado de su web en el buscador (clicks recibidos, impresiones, consultas, penalización manual, sitemaps, etc…). A través de GSC también podemos enviar de forma directa una URL para que Google la indexe, el problema es que el número es limitado (podremos usar la API Indexing como veremos a continuación pero para determinado contenido), por lo que no es el método indicado para indexar sitios completos.

¿Por qué enviar una URL de forma manual a GSC, si en teoría, si tu web está indexada tarde o temprano Google la encontrará y la indexará? Imagina que publicas un artículo hoy, pero Google no pasa, viene un/a espabilado/a y copia todo ese contenido a su web y lo envía a indexar, Google indexa primero su URL y le atribuye la autoría del contenido, cuando encuentre el tuyo lo tomará como contenido copiado y no posicionará. Este ejemplo es algo drástico, pero puede pasar.

✅ API Indexing de Google – Google permite a los desarrolladores acceder a su API para poder enviar / eliminar de forma automatizada URLs de forma que puedan indicar nuevas URLs y Google las rastree e indexe de una form más rápida, el contra, que sólo está disponible para determinados tipos de contenido.

✅ Sitemaps – Gracias a estos ficheros generados en .xml podemos hacer un listado de las páginas que queremos que Google rastree e indexe y enviarlo a través de la herramienta GSC (además de colocarlo en la raíz del sitio y colocar su ruta en el archivo robots.txt). Es muy útil porque además lo revisará de forma rutinaria para descubrir si han añadido nuevas páginas que deba indexar.

Puedes crear tu sitemap de forma automática con plugins SEO para WordPress cómo RankMath, Yoast, etc… o con una herramienta online como XML-Sitemaps si lo quieres crear de forma manual, recomendado sólo si tu web no va a añadir páginas y contenido de forma habitual.

✅ Enlazado interno – Uno de los puntos más importantes, una página huérfana (sin enlaces entrantes) no podrá ser rastreada e indexada por Google, porque no hay nada que le diga que esa páginas está ahí. Así debes crear una estrategia de interlinking que genere más enlaces a páginas más importantes «obligando» al rastreador a pasar más veces por ella, además de darles más autoridad.

Tip: si usas WP existe un plugin llamado Broken Link Checker que se encarga de revisar de forma automática según el tiempo que le hayamos previamente configurado todos los enlaces de tu web para enviarte un informe con los enlaces rotos que vaya encontrando, muy útil para evitar enlaces rotos en tu web.

✅ Limita la profundidad – Aunque como hemos visto anteriormente el nivel de profundidad de 3 niveles es el recomendado para no tener problemas de indexación, lo cierto es que GoogleBot ha avanzado mucho y no tiene porqué tener problemas de indexar a niveles mucho más profundos si la arquitectura web es buena y el enlazado interno también, pero como consejo general, trata de mantener la mayor parte de contenido en los 3 primeros niveles de profundidad.

✅ Evita elementos poco accesibles – GoogleBot es cada día más potente pero aún así existen elementos que van a dificultar que la araña pueda rastrear nuestro contenido, como por ejemplo:

  • <iframes> – Esta etiqueta dificulta que la araña rastree lo contenido en su interior.
  • AJAX – Esta tecnología de carga dinámica muy usada tenía ciertos impedimentos para que los rastreadores pudieran acceder a su contenido, hoy en día Google confirma que puede acceder a este tipo de contenido pero sigue encontrando con algunos problemas de rastreo.
  • JavaScript – Al igual que con AJAX, Google experimentaba ciertas dificultades para rastrear contenido en páginas interactivas que usaban lenguaje JavaScript, por suerte, con los últimos avances de JS hay muchos elementos que podrán ser indexados por los rastreadores sin problemas.

¿Cómo bloqueo la indexación de Google en mi sitio web?

Pero, ¿qué sucede si no quiero que Google rastree mi sitio completo o parte de mi sitio? Pues tenemos disponibles varias opciones para evitar eso que te paso a comentar.

🔒 La más segura y fiable de todas, no subas tu web a internet, es la única forma 100% de que Google no la encuentre.

Pero somos SEOs, trabajamos posicionado páginas en Google y ganamos dinero así, no subir webs a internet no entra dentro de nuestros planes, así que te voy a dar unas nociones básicas para dominar a la bestia del rastreo que es Google.

⛔ Robots.txt

Hablar sobre robots.txt nos daría para hacer un artículo completo (nota mental: artículo sobre robots.txt) porque aunque se trata de un archivo muy simple que debemos tener en la raíz de nuestro dominio, lo cierto es que tiene MUCHA importancia en los procesos de rastreo e indexación de nuestra web.

Antes de enviar a producción tu robots.txt puedes verificar con la herramienta de Google que va a hacer exactamente lo que esperas que haga

Es importante que entiendas que todas las directivas incluidas en este archivo son recomendaciones para los buscadores, es decir, que no te garantiza 100% que se vayan a cumplir, por eso te decía lo de que la única forma de evitar a los rastreadores es no subir la web a internet. No voy a explicar nada acerca de las directivas, cuáles son, su uso, etc.. porque nos llevaría demasiado tiempo, sólo vamos a conocer la relación tan fuerte que tiene este archivo con la indexación de nuestra web el los buscadores.

👿 Por ejemplo, sabías que con una simple directiva escrita en este archivo puedes acabar con toda la INDEXACIÓN y el POSICIONAMIENTO de una página web.

Ejemplo práctico directiva en robots.txt para no permitir indexar NADA
User-agent: * Disallow: /

Por defecto, sino tenemos el archivo robots.txt o si lo tenemos vacío, Google va a rastrear e indexar todo lo que se encuentre.

Y otra cosa importante, existe la directiva Allow (aunque no se suele usar y verás porque), que al contrario que Disallow indica qué cosas se pueden indexar, pero no es necesario usarla, ya que los rastreadores por defecto lo pueden rastrear TODO.

Ejemplo práctico directiva ALLOW en robots.txt
User-agent: * Allow: /noticias /

En este caso estaríamos ante un error, dado que los buscadores como digo, además de /noticias, van a rastrear todo lo que se encuentren, porque Allow no es restrictiva, indica qué se puede indexar, pero eso no impide que el resto no siga siendo indexable.

Ejemplo práctico directiva en robots.txt para bloquear un directorio
User-agent: * Disallow: /directorio-a-bloquear/

Y otro  error común , Google no va a rastrear e indexar páginas o directorios que se incluyan en Disallow en el archivo robots.txt… salvo que reciban enlaces. Es decir, si Google va rastreando por un sitio que sí tiene permitido rastrear y encuentra un enlace (que no es nofollow) hacia una página que tengamos bloqueada con robots.txt la va a rastrear.

⛔ Etiqueta Noindex

Esta etiqueta va a impedir que los buscadores indexen contenido que queramos evitar que indexen, la debemos incluir en la cabecera de nuestra página con el siguiente formato:

<meta name=»robots» content=»noindex»>

Ejemplo uso metaetiqueta Noindex
Es muy común usar esta etiqueta en páginas que no tienen valor para los usuarios y no queremos que Google pierda el tiempo rastreándolas, por ej:

  • Política de Privacidad
  • Términos y condiciones
  • Contacto

Si usas un plugin de SEO para WordPress cómo RankMath (el que te recomiendo a día de hoy) será muy sencillo colocar un Noindex a las páginas que quieras bloquear, incluso puedes ponerlo por tipo de contenido, sino quieres que se indexen páginas, o sino quieres que se indexen imágenes por defecto, etc.

👿 Mucho OJO aquí también, porque si colocas la etiqueta NOINDEX en la página principal puedes desindexar tu web al completo de Google.

Cuidado porque otro  error  que puedes cometer muy fácilmente es usar ambas técnicas a la vez para bloquear contenido, bloquearlo en robots.txt y usar la etiqueta Noindex, lo que no tendrá el resultado que esperas. Porque si bloqueas a Google a leer esas páginas no podrá ver la etiqueta Noindex, y si las encuentra enlazadas las indexará, por lo tanto, usa sólo una de las dos, o robots.txt o Noindex.

La  ventaja de usar Noindex frente a robots.txt , es que ésta funciona aunque la página reciba enlaces (al contrario que robots.txt), nos quitamos una preocupación de encima, ya que con colocar la etiqueta Noindex (y no añadir esa página ni directorio a robots.txt), en teoría, y sólo en teoría, esa página no debe indexarse.

⛔ Retirar url con Google Search Console

Las dos técnicas anteriores para desindexar contenido de Google tienen un «problema» y es que no lo hacen de forma inmediata, Google irá desindexando ese contenido marcado a medida que vaya rastreando los sitios.. y puede tardar mucho tiempo.

Si quieres retirar una URL de forma «inmediata» del buscador de Google y que no aparezca en los resultados la forma adecuada es a través de la herramienta Google Search Console -> Retirar URL.


Para poder hacerlo deberás ser el propietario del sitio o tener permisos para hacerlo en GSC y además tienes un número limitado de solicitudes que puedes realizar.

Si quieres eliminar muchas URLs de golpe puedes hacer uso de expresiones regulares, es decir, puedes eliminar todas las URLs que haya en un directorio indicando la URL con el prefijo, pero si no tienes un directorio predefinido, puedes eliminar URLs distintas de la forma que te explico a continuación.

Eliminar URLs de forma masiva en GSC

Si te ha pasado como a mi alguna vez que quieres desindexar miles de URLs, puedes hacerlo con la etiqueta noindex como hemos visto antes, con robots.txt… o en modo «yo me lo guiso yo me lo como» en Google Search Console, en vez de estar enviado las URLs una a una, puedes instalar esta extensión de Chrome y eliminar hasta 1000 urls de golpe, simplemente subiendolas en un archivo .txt a esta extensión y ella se encargará por ti de irlas enviando a GSC.

 

Controlar la indexación de mi sitio

El buscador Google dispone de una serie de herramientas vitales para que los webmasters conozcamos el estado de nuestra web dentro del buscador, en este caso vamos a utilizar Google Search Console (el antiguo Webmaster Tools), pero existen otras como las Webmaster Tools de Bing para controlar su indexación (y otros muchos aspectos) en el buscador de Microsoft.

La forma más sencilla de saber qué tiene Google indexado de nuestra web es escribir simplemente en la caja de búsqueda de Google el siguiente comando, SITE, puedes usarlo para un dominio completo (te mostrará todo lo que esté indexado de ese dominio) o con una URL concreta para saber si está indexada o no:

site:victormisa.com

Una vez dentro de GSC, tendrás que añadir y verificar tu web si aún no la tienes, debemos dirigirnos al panel de cobertura donde podremos controlar todos los aspectos de rastreo e indexación de nuestra web.

Vamos a encontrar cuatro grandes grupos en los que se va a encontrar cada una de las URLs de nuestro site,  Error ,  Válidas con advertencia ,  Válidas  y  Excluidas , a continuación veremos qué significa cada uno de los grupos y cómo podemos trabajar sobre dichas URLs para resolver sobretodo la que contengan errores o advertencias porque son las que no están indexadas.

Error

Las páginas con la etiqueta  error  son páginas que por algún motivo no han podido indexarse, son las que tenemos que revisar de forma urgente, pues podemos estar perdiendo tráfico si nuestras páginas no están posicionando en Google.

Válidas con advertencia

Las páginas marcadas como  válidas con advertencia  son páginas que sí se encuentran indexadas (o que alguna vez sí estuvieron indexadas) pero que tienen algún error que debemos revisar.

Válidas

Las páginas  válidas  son todas aquellas que están correctamente indexadas y no han mostrado ningún error.

Alivio! Ya no tengo que hacer nada.. no todavía no, en esto del SEO no hay un día tranquilo. Comprueba que el número de páginas indexadas coincide con el número de páginas que quieres tener indexadas, basta un rápido análisis con Screaming Frog y filtrar por las páginas que no tienen la etiqueta Noindex (no son indexables), si coincide todo ok, si no coincide tendrás que analizar por qué.

Es posible que tengas más URLs indexadas de las que existen en tu sitio, seguramente se están indexando versiones duplicadas o con parámetros, en el caso contrario que haya menos URLs indexadas de las que existen, revisa cuáles son las que no están indexadas y el motivo por el que están fuera.

Excluidas

Las  páginas excluidas  son aquellas que nosotros mismos hemos decidido excluir a través de la etiqueta Noindex o robots.txt, pero también puede ser que el mismo Google haya decidido no indexarlas.

  • Páginas con contenido duplicado pueden aparecer en esta lista (Google las ha excluído)
  • Páginas que hemos bloqueado con robots.txt o Noindex
  • Páginas canonicals (es decir, que apuntan como canonical a otra página)
  • Páginas con errores de acceso (error de servidor 5xx, error de acceso 404, etc…)
  • Páginas que ha rastreado pero no ha indexado todavía
  • Páginas huérfanas que no reciben ningún enlace interno

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ir arriba