Pregunta:
Quiero obtener todos los archivos de un sitio web determinado en archive.org. Las razones pueden incluir:
- el autor original no archivó su propio sitio web y ahora está fuera de línea, quiero hacer un caché público a partir de él
- Soy el autor original de un sitio web y perdí contenido. Quiero recuperarlo
- …
Cómo puedo hacer eso ?
Teniendo en cuenta que la máquina wayback de archive.org es muy especial: los enlaces de la página web no apuntan al archivo en sí, sino a una página web que puede que ya no esté allí. JavaScript se usa en el lado del cliente para actualizar los enlaces, pero un truco como un wget recursivo no funcionará.
Respuesta:
Probé diferentes formas de descargar un sitio y finalmente encontré el descargador de la máquina wayback, que fue construido por Hartator (así que todos los créditos son para él, por favor), pero simplemente no me di cuenta de su comentario a la pregunta. Para ahorrarle tiempo, decidí agregar la gema wayback_machine_downloader como una respuesta separada aquí.
El sitio en http://www.archiveteam.org/index.php?title=Restoring enumera estas formas de descargar desde archive.org:
- Wayback Machine Downloader , pequeña herramienta en Ruby para descargar cualquier sitio web de Wayback Machine. Gratis y de código abierto. ¡Mi elección!
- Warrick – Parece que el sitio principal no funciona.
- Wayback Downloader , un servicio que descargará su sitio desde Wayback Machine e incluso agregará un complemento para WordPress. No gratuito.