А вы знали, что… можно скопировать Интернет? Как прочесть изчезнувшие страницы

Каждый день и вы и я заходим в Интернет. Или не каждый, но с завидной регулярностью. Да даже пусть и нерегулярностью. Всё равно, я зашел сегодня вечером сюда перед сном, написать эту статью – а вы сейчас её читаете.

Как вы думаете, можно ли скопировать… Интернет?  Да-да, весь-весь интернет. Конечно, нет. Ведь если бы это было так, то где-то было бы очень много-много компьютеров, больше чем у Гугла и Яндекса, ВКонтакте и Одноклассниках, вместе взятых.

А можно ли скопировать половину интернета? А четверть? Тоже нельзя? А вот это уже не так. Можно! И даже больше Вам скажу: это происходит ПРЯМО СЕЙЧАС. Хорошо это или плохо? Здесь нет точного ответа.

По интернету (в том числе и на Вашем сайте и на моём сайте и на множестве других сайтов) периодически гуляют роботы. Поисковые. Вы конечно же знаете, что без этого мы ничего не смогли бы отыскать в Сети, не зная точного-точного адреса. А кроме поисковых роботов есть еще роботы-архивариусы. Роботы, которые отвечают за «копирование интернета». Да, я уже лет 10 пользуюсь таким сервисом. И сегодня я этим поделюсь с Вами.

Скажите, у Вас бывало такое, что  вы где-то нашли адрес нужной вам странички, или у вас уже давным-давно записан в закладках адрес сайта, который вы периодически (или редко, или часто) используете для получения информации? Например, справочного характера. А в один прекрасный (или не совсем) день, вы открываете эту же закладку, и…

«Ошибка 404. Страница не найдена.

Проверьте адрес и попробуйте еще раз или обратитесь к администратору»

Так случается, когда автор страницы прекратил платить за её размещение в интернете, или попросту удалил эту страницу с сайта, исходя из каких-то своих собственных соображений. А страница то вам нужна! И очень, даже нужна. Что делать? А выход есть. Даже два.

Для начала, вспомните, когда Вы заходили на эту страничку в прошлый раз? Как давно? Месяц назад, полгода назад, год обратно?

Поищем, к примеру, интернет-магазин, который сейчас уже закрыт, но одно время был одним из крупнейших в Латвии поставщиков мобильных телефонов (огромное количество интернет-магазинов Риги закупало там телефоны для перепродажи). Используем одного из признанных мастеров поискового дела – Google:

Пример поиска бывшей ссылки

Что мы видим? Прошёл год, как сайт перестал открываться в интернете, и мы его не видим в поисковой выдаче. Тем не менее, ссылки на него еще сохранились. Как же увидить сайт, каким он был «при жизни»? И вот тут нам на помощь приходят те самые роботы архивариусы… Любой сайт, который сознательно когда-то «продвигали», рекламировали в интернете, или на который постоянно заходили люди не в количестве «2.5 человека в сутки», а сотни людей, — попадает, рано или поздно, в поле зрения «роботов-архивариусов». А выпустила их «на волю» такая замечательная и серьёзная компания, как…  Internet Archibe Wayback Machine «…строит цифровую библиотеку интернет-сайтов и других культурных экспонатов в цифровой форме. Как бумажная библиотека, мы предоставляем бесплатный доступ для исследователей, историков, ученых и широкой общественности».

Организация, кстати, бесприбыльная. И «машина времени» – это, можно, сказать, лишь одна из её функций. Кроме этого доступны еще и функции поиска книг, видеоматериалов, и прочего. Библиотека полностью на английском языке, перевода нет, надобности в подобных материалах на английском у меня за всё время не было, но для нас она и на английском сойдет.  Так как сайтов каждый день появляются и пропадают тысячи и тысячи, а роботов меньше, система сохраняет в своей базе данных лишь сайты, которые живут более полугода. Проверим на примере того же самого сайта (вводим адрес и жмём кнопку «Take Me Back»):

Машина Времени

Ура, есть! Скриншот ниже показывает результаты поиска:

Машина Времени в действии

Слова «has been crawled» говорят нам о том, что за всё время роботы сохраняли копии страницы, в данном случае, 36 раз. Это может быть как только главная страница, так и внутренние, таки даже файлы, если на этих страницах были выложены какие-то ссылки. Для разных сайтов эти цифры будет различны. Я встречал совершенно разные варианты. Итак, в наше случае мы видим, что сайт unimag’a  был доступен прошлый раз 21 апреля 2009 года. На голубые кружочки можно нажимать, — и увидим, как менялся сайт с течение времени, или «с чего всё начиналось«. Можете даже пощелкать по ссылкам внутри сайта, — например, перейти «на русский язык» вверху. Стоит отметить, что графические элементы тоже не всегда сохраняются, но всё же чаще мне попадались сайты с сохраненными картинками.

У этого волшебного сайта есть еще дополнительные возможности, например, поискать все страницы, который «робот-архивариус» сохранил для конкретного интернет-сайта прошлого, или что сделать, чтоб ваш сайт тоже попал в этот архив. Вопросы пишите ниже, в комментарии.

А для сайтов, которые еще активны в интернете, или пропали совсем недавно, подобные страницы сохраняет сам Google. В этом нам поможет функция «Сохранённая копия». Попробуйте сами:

Сохраненная копия

Нажмите на слова, на которые указывают зеленые скобки и… Да, так тоже можно увидеть содержимое страницы, которая почему-то не открывается там, где ей положено было быть.

Итак, вы убедились, что всё, что вы пишите в интернете, имеет шанс быть зафиксировано, скопировано, и т.д. и т.п. ? 🙂 На самом деле, не всё так уж «под колпаком».  Но и правда то, что «удалив сайт со свободного доступа» — это не значит, что «больше его никто никогда не увидит». Учитывайте это, и пользуйтесь с умом.

А я отправляюсь спать. Составление этого текста заняло раза в два больше времени, чем я планировал, но раз уж я затронул тему, то быть ей рассмотренной до самых потрохов.

А как Вы поступаете, найдя свою давнюю-давнюю информацию в Сети, или, наоборот, не найдя той, которую очень нужно найти?

5 Replies to “А вы знали, что… можно скопировать Интернет? Как прочесть изчезнувшие страницы”

  1. Отличная информация, а главное актуальная и я нигде еще об этом не слышала!!! Спасибо большое, Павел!! Успехов вам и вашему сайту!!! У вас тут очень уютно, радостно, а главное полезно "гулять" =)

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Присылайте мне также новые записи