Wget es un software libre, incluido en todas las distribuciones Linux, también esta en Windows, nos permite obtener ficheros usando los protocolos de Internet mas comunes HTTP, HTTPS, FTP. Es una utilidad de linea de comandos, eso permite ser fácilmente llamado por scripts, trabajos cron, etc.
En esta ocasión vamos a usarlo para descargar una pagina Web completa colgada de un servidor web. Para ello tenemos que ejecutar la siguiente linea de comando:
# wget -c -r -p -U Mozilla –convert-links http://www.lapaginaweb.com
Su sintaxis básica es: wget [opciones] [direccion web]
Y el significado de las opciones son:
-p -> Descarga todos los ficheros neceserios para el correcto visionado del los html’s
-c -> Continuar las descarga en caso de haberse descargado parcialmente.
-r -> Descarga de forma recursiva.
-U -> Identificador del navegador usado de cara el servidor.
–convert-links -> Convierte los hipervinculos para que se vean correctamente de forma local la web una vez descargada.
Otras opciones que se pueden usar y que en algunos casos es necesario para poder evitar que la web nos bloquee la descarga son:
–wait -> tiempo en segundos de espera entre peticiones.
–limit-rate= -> límite máximo de transferencia de descarga.