Русская Википедия:Wayback Machine

Материал из Онлайн справочника
Версия от 08:36, 18 июля 2023; EducationBot (обсуждение | вклад) (Новая страница: «{{Русская Википедия/Панель перехода}} {{Сайт | название = Wayback Machine | логотип = Wayback Machine logo 2010.svg | скриншот = Wayback Machine.png | подпись = Стартовая страница портала | url = {{URL|https://web.archive.org/}} | язык программирования = Java, Python | расположение = | владелец = Архив Интерне...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигацииПерейти к поиску

Шаблон:Сайт

Wayback Machine (Шаблон:Tr-en) — бесплатный онлайн-архив некоммерческой библиотеки «Архив Интернета». С помощью поисковых роботов Wayback Machine архивирует и делает общедоступной бо́льшую часть «открытого» интернетаШаблон:Sfn.

Сервис был запущен в 1996 году, однако стал доступен для общественности только в 2001.

За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-страниц. Архивные снимки отображаются в формате HTML, JavaScript и CSSШаблон:Sfn. Благодаря сохранённым в Wayback Machine документам пользователи могут отслеживать происходящие на сайтах изменения и сравнивать разные версии правок[1]. По состоянию на май 2023 года Wayback Machine предоставляет доступ к более чем 808 миллиардам сохранённых веб-страниц[2].

Создание

Файл:Internet Archive mirror servers - Bibliotheca Alexandrina.jpg
Серверы «Архива Интернета», 2008 год
Файл:Brewster Kahle 2009.jpg
Брюстер Кейл в 2009 году

В 1989 году английский учёный Тим Бернерс-Ли создал всемирную паутину — систему, позволяющую передавать данные через подключённые к интернету компьютеры. Однако с распространением всемирной паутины были выявлены две основные проблемы. Первая состояла в нехватке мест для хранения всех данных, из-за чего многие документы и веб-страницы удалялись. Другая проблема заключалась в том, что после редактирования веб-страницы (например, по юридическим причинам) пользователи не могли посмотреть её изначальную версию. Решить эти недостатки стремилась американская цифровая библиотека «Архив Интернета» — некоммерческая организация, созданная программистами Брюстером Кейлом и Шаблон:Iw в 1996 году. При сотрудничестве с Alexa Internet (дочерней компанией Amazon, занимающейся веб-индексированием) «Архив» инициировал создание и хранение копий существующих сайтов для развития «универсального доступа к знанию». Организация предоставляла бесплатный публичный доступ к оцифрованным материалам, таким как веб-страницы, книги, аудиозаписи, включая живые концерты, видео, изображения и программное обеспечение. На 2021 год штаб-квартира «Архива Интернета» находится в Сан-Франциско, в здании бывшей христианской церкви, расположенной в районе Ричмонд. Журналист местной радиостанции Шаблон:Iw в 2019 году сравнивал офис «Архива» с римским храмом[3]Шаблон:Sfn[4]. Организация ставит перед собой цель спасти интернет от исчезновенияШаблон:Sfn.

Wayback Machine стал самым известным проектом «Архива». Онлайн-сервис был назван в честь машины времени из мультсериала 1960-х годов «Шоу Рокки и Буллвинкля». Он предоставляет доступ к цифровой коллекции из более чем 550 млрд веб-страниц[1][5][6]. Проект Wayback Machine был задуман как решение проблемы ошибки 404, означающей, что сервер не может найти данные по запрошенному адресу. Это связано с так называемым вымиранием ссылок — нарастающей недоступностью некогда опубликованных данных. Так, в 1997 году средняя продолжительность жизни веб-страницы составляла 44 дня. В 2003 году этот показатель составил 100 дней.

Проведённый в 2008 году анализ ссылок на 2700 цифровых ресурсов, большинство из которых не имеет печатных аналогов, показал, что около 8 процентов ссылок переставали работать через год. К 2011 году, по прошествии трёх лет, 30 процентов ссылок в коллекции были неработающими[7]. Благодаря интеграции с Alexa, столкнувшийся с сообщением об ошибке пользователь мог получить доступ к заархивированной версии страницы через внедрённую в браузер панель инструментов. Если копия недоступной страницы присутствовала в базе данных Wayback Machine, то загоралась специальная кнопка. При этом пользователи могли предоставить браузеру разрешение на просмотр и регистрацию активности — в таком случае все посещаемые сайты архивировались на порталеШаблон:Sfn.

Wayback Machine был запущен в мае 1996 года, однако стал доступным для общественности только в 2001 г. — до этого вся записанная на цифровых магнитных лентах информация была открыта только для ограниченного числа учёных и исследователейШаблон:Sfn. К моменту «открытия» архив содержал более 10 млрд заархивированных страниц[1]. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему мируШаблон:Sfn. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищШаблон:Sfn. Так, Wayback Machine нельзя считать поисковой системой коллекции организации, так как она не осуществляет поиск по базе данных другой крупной виртуальной библиотеки — Open Library, позволяющей пользователям бесплатно получать доступ к цифровым копиям книг, которые загружаются и архивируются в рамках проекта[8][9].

Характеристика

С запуском Wayback Machine «Архив Интернета» стал одним из самых популярных и узнаваемых онлайн-порталов и главным сервисом веб-архивирования[1]Шаблон:Sfn.

В 1999 году «Архив» начал расширять коллекцию за пределы архивного веб-контента, чтобы обеспечить статус как к оцифрованным, так и изначально цифровым ресурсам, в том числе книгам, аудио, фильмам, изображениям, документам, программному обеспечению и видеоиграмШаблон:Sfn. Некоторые сканирования выполняются поисковыми роботами самого архива, а другие — партнёрскими организациями. Отдельные базы данных могут приобретаться за счёт пожертвований пользователей и целевых приобретений[9]. Сами создатели организации сравнивали свою коллекцию с Александрийской библиотекойШаблон:Sfn.

На 2021 год Wayback Machine содержал более 424 млрд веб-страницШаблон:Sfn — больше, чем документов в Библиотеке КонгрессаШаблон:SfnШаблон:Sfn[9].

Принцип работы

Платформа Wayback Machine функционирует за счёт двух основных элементов — поисковых роботов (или веб-краулеров) и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциямШаблон:Sfn.

Поисковые роботы

Шаблон:Bar chart Изначально коллекция архива пополнялась за счёт браузерного плагина от Alexa Internet, который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в «Архив Интернета». Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта[9].

В 2002 году «Архив» запустил собственного поискового робота с открытым исходным кодом — Шаблон:Iw. Коды краулеров записаны с помощью комбинации программных языков Си и Perl. Помимо этого, «Архив Интернета» также принимает данные сканирования от других доноровШаблон:Sfn. Отсканированные копии веб-сайтов автоматически конвертируются в файлы размером около 100 МБ, которые затем сохраняются на серверах. В 2002 году общая скорость пополнения архива составляла около 10 терабайт в месяц[10].

Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая HTML-, JavaScript- и CSS-страницыШаблон:Sfn. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания «Архива Интернета» всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback MachineШаблон:Sfn. Руководство «Архива Интернета» не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процессШаблон:Sfn. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита[11]. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянииШаблон:Sfn. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере[6]Шаблон:Sfn[1].

Интерфейс

Интерфейс Wayback Machine позволяет пользователям осуществить два основных действия — получить доступ к истории изменений сайта и просмотреть все сделанные на порталах правки. Также доступна функция сравнения разных версий сайтовШаблон:Sfn[12]Шаблон:SfnШаблон:Sfn. Для этого в специальное окно поиска вводится URL интересующего портала, после чего Wayback Machine выдаёт список дат архивации. Звёздочка после некоторых дат используется для обозначения обнаруженных на странице изменений. URL-адрес заархивированной страницы начинается с web.archive.orgШаблон:SfnШаблон:Sfn.

Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице и получить обзорный отчёт[13][13].

Хранение

На 2018 год коллекция «Архива Интернета» составляла более 40 петабайт или 40 млн гигабайт данных, Wayback Machine предоставлял доступ к примерно 63 % всех имеющихся материалов[14]. На февраль 2020 года в архиве Wayback Machine числилось более 900 млрд URL-адресов и более 400 млрд веб-страниц[15]. На июнь 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённых веб-страниц[2].

Использование

Портал Wayback Machine зачастую применяют в правовой сфере — юристы используют сервис для поиска информации по гражданским искам, уголовным делам, в административном делопроизводстве и патентных процессах. Полученные через Wayback Machine архивные версии сайтов могут использоваться для решения вопросов о патентном праве или установлении наказания за публикацию материалов, которые впоследствии были удалены из сетиШаблон:SfnШаблон:Sfn. Несмотря на широкое использование коллекции «Архива Интернета» для предоставления доказательств, некоторые суды США отказывались принимать скриншоты веб-страниц, ссылаясь на юридическую сложность отождествления оригинала документа и его заархивированной версииШаблон:Sfn. В 2018 году Апелляционный суд США по второму федеральному апелляционному округу постановил, что скрины с архива веб-страниц Wayback Machine относятся к законным доказательствам, которые могут быть использованы в судебных разбирательствах; ранее аналогичное решение вынес Апелляционный суд США по третьему федеральному апелляционному округу[16]; позднее Апелляционный суд США по седьмому федеральному апелляционному округу также признал скриншоты веб-архивов допустимыми электронными доказательствами[17].

Благодаря архивированным в Wayback Machine статьям авторы могут устанавливать право на открытие или на публикациюШаблон:Sfn. Для социологов и историков Wayback Machine предлагает ценный крупномасштабный источник данных для анализа поведения компаний, стратегий продаж, социальных практикШаблон:SfnШаблон:Sfn. Также Wayback Machine позволяет получать доступ к журналам открытого доступа. Так, с начала 2000-х годов из интернета исчезло 84 журнала ОД по естественным наукам и ещё около 100 — по социальным и гуманитарным[18][19][20].

Активисты и исследователи используют портал для борьбы с дезинформацией, особенно усилившейся после избрания президента Дональда Трампа в США. В ответ на участившиеся противоречивые заявления со стороны администрации президента «Архив» создал отдельную коллекцию под названием «Архив Трампа», содержащую выступления президента на телевидении и твиты. «Архив» надеется, что его хранилище поможет другим выявлять ложную информацию и проверять подозрительный контент[21][22]. Однако в некоторых случаях отдельные активисты утверждали, что заархивированные Wayback Machine ресурсы наоборот способствовали распространению дезинформации. Так, с началом пандемии коронавируса сторонники конспиративных теорий использовали сохранённые порталом скриншоты для распространения ложной информации о коронавирусеШаблон:Sfn. В качестве контрмер в ноябре 2020 года «Архив» внедрил в Wayback Machine инструменты проверки информации на достоверность. Для этого некоммерческая организация начала сотрудничать с различными компаниями, занимающимися проверкой фактов, чтобы предоставлять пользователям причины удаления той или иной страницы из коллекции. При открытии заархивированной версии сайта Wayback Machine предоставляет пользователям сведения о причине её удаления в виде жёлтого баннера вверху экрана. При подозрении на причастность веб-страницы к кампании по дезинформации Wayback Machine предоставляет данные об организации, проводившей проверку на достоверность, и ссылку на её отчёт[23].

В отдельных случаях полученная через Wayback Machine информация фигурировала в крупных скандалах. Так, с помощью портала было выяснено, что официальный представитель Министерства здравоохранения и социальных служб США Шаблон:Iw в серии уже удалённых твитов публиковал расистские и уничижительные комментарии о китайском народе[24]. Помимо этого, Wayback Machine хранит копию удалённого сообщения со страницы, озаглавленной «Сводки от Стрелкова Игоря Ивановича» в социальной сети «ВКонтакте», о сбитом самолёте АН-26, который в действительности оказался пассажирским Boeing 777[25][26]. В мае 2021 года издание Bellingcat выяснило, что находящиеся в Европе американские военные использовали для хранения засекреченных данных детские мобильные приложения для запоминания информации. Из-за неправильно установленных настроек приватности другие пользователи получили доступ к секретной информации. После обнаружения утечки информации военные удалили все карточки, но они остались в сервисе Wayback Machine[27].

Правовой статус

«Архив Интернета» не запрашивает разрешения на копирование веб-сайтов перед удалённым сбором данных, однако удаляет или ограничивает доступ к архивным материалам по запросу. Ранее владельцам веб-сайтов предоставлялась возможность «отказаться» от архивирования через стандартный файл robots.txt, который исключает веб-сайты или их отдельные страницы, каталоги, из списка порталов для веб-краулеровШаблон:Sfn[28]. По состоянию на 2022 год, заявки на удаление сайтов или их страниц из архива принимаются только после прямого запроса от администрации удаляемого сайта. Однако из-за сохранения других данных «Архив Интернета» находится в уязвимом юридическом положении[29]. Так, в 2005 году Wayback Machine оказался втянутым в спор о товарных знаках между компаниями Healthcare Advocates и Health Advocate. Последняя использовала Wayback Machine для доступа к веб-страницам Healthcare Advocates, датируемым 1999 годом, в попытке найти информацию, которая поддержала бы дело. В ответ Healthcare Advocates подала в суд как на Health Advocate, так и на «Архив», утверждая что архив нарушил Закон об авторском праве в цифровую эпоху. Впоследствии дело было урегулировано в досудебном порядке[30].

В 2002 году «Архив» удалил из своей системы ссылки на архивные копии портала Xenu.net, принадлежащего критику церкви Андреасу Хельдал-Лунду. Удаление произошло по требованию юристов Церкви саентологии, заявивших, что владеют правом собственности на выдержки из документов Церкви, опубликованные на сайте[31][32].

Ограничения

Исследователи и активисты критикуют Wayback Machine и деятельность «Архива Интернета» за попытку сохранить все онлайн-материалы, многие из которых не представляют должной ценности. По мнению отдельных исследователей, это связано с устаревшей политикой «Архива», который был основан в конце 1990-х годов — тогда, на заре создания интернет-архивов, считалось, что данные интернета должны сохраняться в полном объёме. Однако с созданием множества однодневных сайтов многие исследователи и активисты поменяли своё мнение[33]. Другие критические замечания относятся к техническим ограничениям сервиса — Wayback Machine не позволяет сохранять и обрабатывать определённые элементы JavaScript, а также может создавать заархивированные страницы, содержащие неработающие ссылки, отсутствующую графику или являющиеся неполными по иным причинамШаблон:Sfn. Сканеры захватывают только статический снимок сайта — функции порталов на основе Java или Flash работать не будут. Это означает, что бо́льшая часть функциональных возможностей исходной веб-страницы теряетсяШаблон:Sfn.

Блокировки

В 2015 году Роскомнадзор принял решение заблокировать Wayback Machine за копию страницы текста «Одиночный джихад в России», содержащего информацию о «теории и практике партизанского сопротивления». Соответствующая страница в «Архиве Интернета» была добавлена в официальный реестр запрещённых веб-сайтов в России 23 июня 2015 года, из-за чего некоторые российские интернет-провайдеры были вынуждены полностью заблокировать сайт «Архива»[34][35][36]. Доступ к Wayback Machine был заново открыт в 2016 году, после того как запрещённые ролики удалили с портала[37].

В 2019 году представители «Ассоциации по защите авторских прав в интернете» (АЗАПИ) подали серию исков против сервиса Wayback Machine за нарушение авторских прав. Представители АЗАПИ запросили Мосгорсуд вынести решение о вечной блокировке портала на территории России, однако на август 2020 года «Архив Интернета» по-прежнему продолжал свою работу[38][39][40][41].

В 2017 году портал был заблокирован в Индии и Киргизии за содержание «экстремистских материалов»[42][43][44]. По данным на 2021 год, сайт заблокирован в Китае[45].

В июне 2022 года Таганский райсуд Москвы оштрафовал «Архив Интернета» на 800 тыс. рублей за неудаление из WayBack Machine видео о способах изготовления коктейля Молотова[46].

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Шаблон:Хорошая статья

Шаблон:Спам-ссылки