jueves, 11 de diciembre de 2008

Capturar/Guardar las páginas de un blog

Como ejemplo vamos a poner como bajar a nuestro pc las páginas de este blog. Lo que queremos es no solo guardar el texto de lo que está escrito en una página, sino también que los enlaces que hay en ellas funcionen, para no perder esa información que muchas veces es tan importante o mas que el propio texto.

1- Manualmente con copiar y pegar:

- seleccionas todo el texto de una página o tema que te interese, lo copias con el ratón
- abres openoffice writer
- pegas el texto
- guardas el documento: lo puedes guardar en el formato que quieras, por ejemplo: odt, doc, html, pdf, en una carpeta, por ejemplo en /home/usuario/hatterasblog

De esa forma podrías, con paciencia,  guardar todos, o solo los temas que quieras, en una carpeta local de tu disco duro.

2- Semi-automáticamente con un comando en una terminal:

--- creas una carpeta donde guardar los archivos que vas a bajar desde el servidor del blog, por ejemplo la carpeta hatterasblog: con el comando: mkdir hatterasblog

--- te pones en dicha carpeta: cd hatterasblog

--- ejecutas el siguiente comando:
wget -k -r http://hatteras-blog.blogspot.com.es/
Con estos parámetros -k (convierte los enlaces a local) -r (hace una bajada recursiva de todos los archivos colgados a partir de la ruta hatteras.wordpress.com) Si todo va bien, tendrás en la carpeta local hatterasblog toda la respuesta del lado del servidor del blog.

3- Automáticamente con una aplicación: En los repositorios hay una versión de httrack ( aplicación en línea de comandos ) , y también su interfaz gráfica: WebHTTrack. Muy fácil de usar: eliges la carpeta donde guardar los archivos que se van a bajar, y la url inicial del blog ( en este ejemplo: http://hatteras-blog.blogspot.com.es/ )

-----------------------------------------------

No hay comentarios:

Publicar un comentario en la entrada

A la vez que haces un comentario, por favor da una puntuación al tema: malo, normal, bueno o muy bueno.
Gracias.