1 июня 2017 г.

Как скачать сайт целиком?

Wget - это не интерактивная утилита для загрузки файлов из интернета. Это означает, что после её запуска пользователь может повлиять на её работу только с помощью средств управления процессами операционной системы. Как правило, для этого используются сочетания клавиш Ctrl+C при необходимости прерывания работы программы и Ctrl+Z для помещения текущего задания в фон.

Wget позволяет загружать любые файлы во всемирной паутине, она поддерживает протоколы HTTP, HTTPS, и FTP, загрузку с серверов прокси по протоколу HTTP. Wget может следовать по ссылкам страниц HTML и создавать локальные копии удаленных сайтов web, при этом возможно полное восстановление структуры папок сайта. Во время такой работы Wget ищет файл с правами доступа для роботов (/robots.txt). Возможна также конвертация ссылок в загруженных файлах HTML для дальнейшего просмотра сайта в автономном режиме. Файлы можно скачивать рекурсивно по ссылкам в HTML страницах, как с одного сайта с определённой глубиной следования по ссылкам, так и с нескольких. Wget разработан для медленных или нестабильных соединений, если во время загрузки возникнет проблема, то Wget будет пытаться продолжить загрузку файла с того места, где оборвалась загрузка.

На самом деле всё очень просто, чтобы скачать сайт в терминале вводим:

wget -r -l7 -k -np сайт, что хотим скачать

А теперь по порядку:

   -r - указывает на то, что нужно рекурсивно переходить по ссылкам на сайте
   -l7 -- качаем страницу с глубиной до 7 ссылок ( -l0 -- бесконечная глубина)
   -k - для того чтобы все ссылки в скачанных страницах преобразовались в локальные
   -np - не дает ходить по ссылкам выше указанной

Пример:
wget -r -k -l 6 -p -E -nc http://remontka.pro/
или так:

wget -P /home/ВасяПупкин/Загрузки/Сайты/ -r -k -l 6 -p -E -nc http://remontka.pro/

http://remontka.pro/ страница или каталог, в данном примере сайт, который скачиваем.

Аргументы:

   -P - /home/ВасяПупкин/Загрузка - сохраняет в папку Загрузка
   -r - указывает на то, что нужно рекурсивно переходить по ссылкам на сайте
   -k - для того чтобы все ссылки в скачанных страницах преобразовались в локальные
   -l6 - качаем страницу с глубиной до 6 ссылок( -l0 -- бесконечная глубина)
   -p - указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.)
   -E - добавит расширение html
   -nc - существующие файлы не будут перезаписаны
 
Можно добавить:

   -N - сравнение по дате на тот случай, если сайт уже обновился
   -np - не дает ходить по ссылкам выше указанной
 
Если убрать аргумент -P /home/ВасяПупкин/Загрузка, то скачиваться будет в домашнюю папку пользователя.
 
Это одно из возможных применений утилиты wget. На самом деле область применения wget значительно шире и wget обладает большим числом дополнительных параметров. За более подробной информацией обращайтесь к руководству, выполнив в командной строке терминала:
man wget
или так:
wget -h
ЗЫ на момент скачивания сайт в примере весил 683,2 мб

Комментариев нет:

Отправить комментарий