Qué es el sitemap.xml para una web

Qué es el sitemap.xml para una web

Hoy vamos con un monográfico dedicado a uno de los ficheros imprescindibles en la mayoría de los proyectos web.

Qué son los sitemap y para qué se usan

Los sitemaps son unos ficheros que dan información sobre las URLs que componen una web. Encontramos las URLs de las diferentes páginas, las imágenes, vídeos, otros archivos…

Evidentemente estos ficheros no están hechos para los usuarios. Echarles un ojo, son una columna de código más fea que un frigorífico por detrás.

Google y el resto de buscadores rastrean todos los enlaces que contienen los sitemaps para cubrir todas esas URLs de forma rápida, sin necesidad de encontrar dichas páginas mediante el rastreo de enlaces internos de la web.

Podemos decir que es un como un índice donde se listan todas las URLs que consideramos prioritarias. O así debería ser.

Algo habitual es generar diferentes sitemaps segmentando por tipología de páginas.

Por ejemplo, si tenemos un ecommerce, podemos tener un sitemap de productos, otro de páginas de categoría, otro para el resto de páginas que componen el sitio… y si tenemos un blog también puede ser interesante separar páginas, entradas…

Incluso, es recomendable generar sitemaps para las imágenes donde podemos añadir más información como el tipo de imagen, el tema, licencia… y lo mismo con los vídeos.

¿Cuándo debemos usar un sitemap?

Mi recomendación personal es que siempre que sea técnicamente posible, tengas un fichero de este tipo en tu web.

No son obligatorios, de hecho en webs que tienen pocas URLs y están bien estructuradas, el rastreo por parte de Google no va a ser un problema, pero tenemos situaciones que si es 100% recomendable tener un fichero de este tipo.

Sitios grandes y mal enlazados internamente

Cuando manejamos webs con muchas URLs, muchos niveles de profundidad, los robots pueden tener dificultades para encontrar y rastrear todas las páginas.

Si tenemos un fichero donde indicamos todas las URLs a indexar, estamos haciendo accesible el rastreo. Evitamos esos despistes de los robots.

Lo mismo ocurre si tienes secciones no muy bien enlazadas o incluso aisladas. En estos casos es fundamental, de otra forma Google no podría llegar a dichas páginas.

Cuando tu sitio no lo conoce ni el tato

Si lanzamos una web nueva, independientemente del número de páginas que contenga, es necesario que demos un poco de información sobre su existencia a los robots.

Como no tenemos enlaces externos que apuntan a nuestro proyecto, Google difícilmente va a llegar a nuestra web.

La recomendación es generar este fichero y enviarlo a Google para que lo rastree periodicamente.

Y cómo lo enviamos?... Pues ahora vamos a verlo, pero antes es necesario saber cómo podemos generar este fichero.

Cómo montar un sitemap

Lo primero que debes saber que estos ficheros necesitan un cierto refresco o dinamismo.

¿Qué quiero decir con esto? Pues que serán ficheros vivos que deben incluir y retirar las URLs según su vida. Cada vez que se crea una nueva entrada de blog, es necesario meterla en el sitemap. Lo mismo con productos y el resto de páginas.

Evidentemente, cuando demos de baja URLs también habrá que eliminarlas del sitemap, de otra forma estaremos invitando a rastrear páginas con 404 o redirecciones. No se si a Google le hace mucha gracias perder el tiempo, ya te digo que no.

Además de evitar URLs con códigos respuesta que no sean 200, hay otras que debemos no incluir. Veamos:

  • URLs con noindex
  • URLs no canónicas
  • URLs bloqueadas por robots.txt
  • URLs con contraseña

¿Cómo lo generamos?

La mayoría de los CMS que usamos, tienen módulos, extensiones, plugins que nos ayudan a automatizar la creación y gestión de este fichero.

Esto es genial pero muchas veces estos módulos no tienen en cuenta lo que hemos hablado antes y nos meten todas las URLs de nuestra web en los sitemap. ERROR

Necesitamos que cumplan con las directrices que necesitamos, pudiendo gestionar qué URLs si y cuáles no deben estar dentro del fichero.

Otra opción que tenemos disponible es generar nuestro propio fichero manualmente.

Podemos extraer todas las URLs que queremos que se incluyan y montarlo en un fichero .xml. Esto sería un trabajo de chinos y recuerda que deberías actualizarlo constantemente.

Algo intermedio podemos hacerlo mediante Screaming Frog. Tiene una opción de generar sitemaps tras un rastreo de tu web. Lo hace todo automático y genera el fichero limpio de URLs que no cumplan las condiciones que te he contado.

Subiendo el fichero Sitemap a Search Console

Tan importante es tener generado este fichero como enviarlo a Google de forma directa.

Sitienes una propiedad de Search Console generada para tu web, sabrás que hay una opción para enviar sitemaps a rastreo.

Colocas la ruta del fichero y el resto del trabajo lo harán los robots de Google.

Vas a poder identificar errores en dicho fichero y cruzar el resto de datos que ofrece Search Console. Por ejemplo, podrás ver el informe de cobertura filtrado por las URLs que tienes en el sitemap, muy valioso para ver cómo está la indexación de esas URLs que consideramos prioritarias.

Dudas frecuentes Sitemap

Hemos visto los conceptos generales sobre este tipo de ficheros y ahora vamos con algunas de las dudas frecuentes:

  • ¿Debe estar este fichero en la raiz? La respuesta es no. De hecho, muchos módulos van a generar estos ficheros dentro de sus propias carpetas por lo que no va a ser posible crearlos en el directorio raiz. Para eso está Search Console, para que indiquemos la ruta precisa.
  • ¿Tienen que tener el nombre exacto de Sitemap.xml? Claro que no, puedes llamarlo como mejor te convenga. ¿Qué harías sino cuando tuvieses 3 o 4 sitemaps diferentes?
  • ¿El índice de sitemaps es perjudicial? Una cosa que no os he contado es que es posible hacer un fichero de índice de sitemaps cuando tenemos más de uno disponible. Search Console lo comprende perfectamente y lo rastrea sin problemas.
  • ¿Puedo tener un sitemap con más de 3000 URLs? Si, puedes hacerlo, de hecho se admiten sitemaps de hasta 50.000 URLs o 50mb de peso.

Y llegamos al final de otro episodio. Este contenido de hoy hay que agradecerlo a los patrones que han decidido aportar su granito de arena para que continúe con estos episodios.

Si te ha gustado el programa, ya sabes, necesito tu feedback en Apple Podcast, déjame una valoración 5 y comentario, si me escuchas desde Ivoox, dame like y comenta. Así es como avanza el programa poco a poco en los ranking!

Llévate un abrazo muy fuerte, hasta el próximo episodio!