Wget - это не интерактивная утилита для загрузки файлов из интернета. Это означает, что после её запуска пользователь может повлиять на её работу только с помощью средств управления процессами операционной системы. Как правило, для этого используются сочетания клавиш Ctrl+C при необходимости прерывания работы программы и Ctrl+Z для помещения текущего задания в фон.
Wget позволяет загружать любые файлы во всемирной паутине, она поддерживает протоколы HTTP, HTTPS, и FTP, загрузку с серверов прокси по протоколу HTTP. Wget может следовать по ссылкам страниц HTML и создавать локальные копии удаленных сайтов web, при этом возможно полное восстановление структуры папок сайта. Во время такой работы Wget ищет файл с правами доступа для роботов (/robots.txt). Возможна также конвертация ссылок в загруженных файлах HTML для дальнейшего просмотра сайта в автономном режиме. Файлы можно скачивать рекурсивно по ссылкам в HTML страницах, как с одного сайта с определённой глубиной следования по ссылкам, так и с нескольких. Wget разработан для медленных или нестабильных соединений, если во время загрузки возникнет проблема, то Wget будет пытаться продолжить загрузку файла с того места, где оборвалась загрузка.
На самом деле всё очень просто, чтобы скачать сайт в терминале вводим:
wget -r -l7 -k -np сайт, что хотим скачать
А теперь по порядку:
-r - указывает на то, что нужно рекурсивно переходить по ссылкам на сайте
-l7 -- качаем страницу с глубиной до 7 ссылок ( -l0 -- бесконечная глубина)
-k - для того чтобы все ссылки в скачанных страницах преобразовались в локальные
-np - не дает ходить по ссылкам выше указанной
Пример:
wget -P /home/ВасяПупкин/Загрузки/Сайты/ -r -k -l 6 -p -E -nc http://remontka.pro/
http://remontka.pro/ страница или каталог, в данном примере сайт, который скачиваем.
Аргументы:
-P - /home/ВасяПупкин/Загрузка - сохраняет в папку Загрузка
-r - указывает на то, что нужно рекурсивно переходить по ссылкам на сайте
-k - для того чтобы все ссылки в скачанных страницах преобразовались в локальные
-l6 - качаем страницу с глубиной до 6 ссылок( -l0 -- бесконечная глубина)
-p - указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.)
-E - добавит расширение html
-nc - существующие файлы не будут перезаписаны
Можно добавить:
-N - сравнение по дате на тот случай, если сайт уже обновился
-np - не дает ходить по ссылкам выше указанной
Если убрать аргумент -P /home/ВасяПупкин/Загрузка, то скачиваться будет в домашнюю папку пользователя.
Это одно из возможных применений утилиты wget. На самом деле область применения wget значительно шире и wget обладает большим числом дополнительных параметров. За более подробной информацией обращайтесь к руководству, выполнив в командной строке терминала:
Wget позволяет загружать любые файлы во всемирной паутине, она поддерживает протоколы HTTP, HTTPS, и FTP, загрузку с серверов прокси по протоколу HTTP. Wget может следовать по ссылкам страниц HTML и создавать локальные копии удаленных сайтов web, при этом возможно полное восстановление структуры папок сайта. Во время такой работы Wget ищет файл с правами доступа для роботов (/robots.txt). Возможна также конвертация ссылок в загруженных файлах HTML для дальнейшего просмотра сайта в автономном режиме. Файлы можно скачивать рекурсивно по ссылкам в HTML страницах, как с одного сайта с определённой глубиной следования по ссылкам, так и с нескольких. Wget разработан для медленных или нестабильных соединений, если во время загрузки возникнет проблема, то Wget будет пытаться продолжить загрузку файла с того места, где оборвалась загрузка.
На самом деле всё очень просто, чтобы скачать сайт в терминале вводим:
wget -r -l7 -k -np сайт, что хотим скачать
А теперь по порядку:
-r - указывает на то, что нужно рекурсивно переходить по ссылкам на сайте
-l7 -- качаем страницу с глубиной до 7 ссылок ( -l0 -- бесконечная глубина)
-k - для того чтобы все ссылки в скачанных страницах преобразовались в локальные
-np - не дает ходить по ссылкам выше указанной
Пример:
wget -r -k -l 6 -p -E -nc http://remontka.pro/или так:
wget -P /home/ВасяПупкин/Загрузки/Сайты/ -r -k -l 6 -p -E -nc http://remontka.pro/
http://remontka.pro/ страница или каталог, в данном примере сайт, который скачиваем.
Аргументы:
-P - /home/ВасяПупкин/Загрузка - сохраняет в папку Загрузка
-r - указывает на то, что нужно рекурсивно переходить по ссылкам на сайте
-k - для того чтобы все ссылки в скачанных страницах преобразовались в локальные
-l6 - качаем страницу с глубиной до 6 ссылок( -l0 -- бесконечная глубина)
-p - указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.)
-E - добавит расширение html
-nc - существующие файлы не будут перезаписаны
Можно добавить:
-N - сравнение по дате на тот случай, если сайт уже обновился
-np - не дает ходить по ссылкам выше указанной
Если убрать аргумент -P /home/ВасяПупкин/Загрузка, то скачиваться будет в домашнюю папку пользователя.
Это одно из возможных применений утилиты wget. На самом деле область применения wget значительно шире и wget обладает большим числом дополнительных параметров. За более подробной информацией обращайтесь к руководству, выполнив в командной строке терминала:
man wgetили так:
wget -hЗЫ на момент скачивания сайт в примере весил 683,2 мб
Комментариев нет:
Отправить комментарий