Сохранение страниц в Web Archive из командной строки Linux

Архив интернета (Web Archive) - это сервис который архивирует и предоставляет доступ к большей части «открытого» интернета. Позволяет сохранять сайты или отдельные страницы, в том числе просматривать страницы в прошлом.

К примеру, как выглядел g-soft.info

2012 год G-soft.info 2012
2014 год G-soft.info 2014
2016 год G-soft.info 2016
2018 год G-soft.info 2018

Web Archive так же используется Cloudflare для функции Always Online, позволяющая отображать пользователям последнюю копию страницы, в случае недоступности сервера

Cloudflare Always Online

Создаем скрипт для сохранение страниц в Web Archive

У Web Archive нет готового API для создания копии страниц, только для проверки их наличия.

Необходимо создать новый баш скрипт

со следующим тестом

сохраняем его.

устанавливаем права на запуск

Сохраняем страницу в Web Archive

В качестве ответа может вернутся статус 520, это не является ошибкой. Страница для перенаправления еще не сформирована.
Можно попробовать выполнить скрипт повторно.

Запускаем скрипт, в качестве параметра передает URL который мы хотим сохранить.

в результате нам вернется статус и URL с последней копией.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий