fbpx
Cómo encontrar versiones antiguas de sitios web usando la cache de Google

Cómo encontrar versiones antiguas de sitios web usando la cache de Google

Google no es simplemente un motor de búsqueda de páginas web: de hecho, durante períodos de tiempo limitados, también le permite buscar en el historial de páginas antiguas. A través del famoso motor tendremos la posibilidad de encontrar páginas antiguas de los sitios, por ejemplo borradas o modificadas sin previo aviso. Google suele mantener una copia en caché de las páginas, almacenando todo en un archivo público de libre acceso.

Estas caches son muy útiles, por ejemplo, para mostrar el contenido de un sitio actualmente no disponible, inactivo o por ejemplo caducado o eliminado, obviamente dentro de ciertos límites de tiempo. Lo que también puede ser interesante de esta búsqueda, es la edad de las páginas en la caché, ya que las páginas demasiado viejas pueden resultar inútiles o inadecuadas para nosotros.

 

Cómo encontrar versiones antiguas de sitios web usando la cache de Google

 

¿Para qué sirve la cache de Google?

La caché de Google es un registro de páginas web antiguas, que podemos utilizar como archivo de búsqueda. Recuerda en este sentido que:

  1. La caché de Google es buena para recuperar el contenido de la página, no su funcionalidad (al menos en general lo es);
  2. Es útil para recuperar páginas estáticas, es decir, texto e imágenes;
  3. Normalmente es imposible ejecutar páginas dinámicas/interactivas desde cachés, por ejemplo, formularios, registro de sitios, chat, etc;
  4. La caché tiene una duración variable, por lo que después de un tiempo puede ser imposible recuperar su contenido.

Las siguientes indicaciones son útiles tanto para Windows como para Mac y Linux, y en cualquier navegador que tengas: Safari, Chrome, Firefox, y son útiles tanto para los “insiders” como para los usuarios comunes que quieran entender, por ejemplo, por qué un sitio no se abre y si depende de su conexión u otra.

Cómo buscar en la cache de Google

El formato genérico utilizado por Google para encontrar páginas en caché es este:

http://webcache.googleusercontent.com/search?q=cache:URLDELAPAGINA

donde URLDELAPAGINA es la URL de la que desea encontrar una copia en caché.

Por ejemplo, pongamos este sitio web (webhoy.es) en la caché de Google abriendo el navegador en la dirección:

http://webcache.googleusercontent.com/search?q=cache:webhoy.es

encontraremos todas las páginas de webhoy.es almacenadas hasta la fecha. Esto obviamente se aplica no sólo a la página de inicio, sino también a las páginas internas.

En general, este procedimiento se utiliza a menudo para encontrar, dentro de ciertos límites de tiempo, la versión original de una página que ha sido cambiada con el tiempo: por ejemplo, la que contenía información que ahora ha sido cambiada, obviamente “confiando” en el rastreador de Google y sus hallazgos. Ten en cuenta que muchos sitios no tienen habilitada la caché o, si lo prefieres, impiden que Google guarde una copia de sus páginas en caché.

 

Cómo buscar en la cache con Chrome

La sintaxis abreviada también está disponible en Chrome, que es idéntica en significado a la anterior:

caché:URLDELAPAGINA

 

Cómo buscar en Archive.org

Alternativamente, el historial de páginas de un sitio (con instantáneas relacionadas) también está disponible en archive.org, buscando directamente en el historial de la dirección que falta o que se ha eliminado, o a través de URLs estándar:

https://web.archive.org/web/*/https://webhoy.dev

donde por supuesto webhoy.es es la dirección que estamos buscando. En este caso podríamos encontrar las distintas versiones de las páginas web archivadas por fecha, de forma aún más precisa que antes.

 

Bloqueo de la caché de Google por un sitio (robots.txt)

En algunos casos, los sitios no permiten, a través de una directiva particular robots.txt, el archivo de sus páginas web en Archivo. Si desea evitar que Google almacene su sitio en caché, existen al menos dos formas de hacerlo.

La primera es insertar un robot meta tag en noarchive dentro de las páginas web individuales:

[dt_code]<name=”robots” content=”noarchive”>[/dt_code]

la segunda es explotar el archivo robots.txt especificando el bloqueo de caché en Google:

[dt_code]Agente de usuario: Googlebot
Rechazar: / /[/dt_code]

Tenga en cuenta que esta segunda configuración generalmente no es recomendable, porque es cierto que bloquea la caché pero elimina completamente su sitio de Google (incluso las versiones actuales).

 

Y con esto terminamos nuestro artículo sobre caché en google y cómo acceder a toda esa información almacenada.

¡Si te ha gustado compártelo por si puede ser de utilidad a alguien!

Abrir chat
1
💬 ¿En qué podemos ayudarte?
Bienvenido! 👋
Escríbenos si necesitas un presupuesto personalizado, si necesitas asistencia técnica o si tu web no te da beneficios. 😉
Powered by