Русская Википедия:Архивирование веб-сайтов

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Архиви́рование веб-сайтов (веб-архиви́рование, Шаблон:Lang-en) — процесс сбора и «дублирования» веб-страниц и целых сайтов с целью сохранения информации и доступа к ней в будущем, если источник окажется недоступен. Предпосылками для развития веб-архивирования стали проблемы вымирания ссылок и потенциальное наступление цифрового тёмного века. В 1996 году был создан «Архив Интернета» — первая некоммерческая организация, поставившая перед собой цель создать «снимки» всех страниц в интернете. В 2001 году «Архив» запустил сервис по архивированию сайтов Wayback Machine, через который по состоянию на 2021-й год было сохранено более 600 млрд веб-страниц.

С начала 2000-х годов практики сохранения веб-сайтов активно внедряют во многих странах, в том числе и на государственном уровне. При этом действуют площадки по разработке стандартов и общих практик в сфере веб-архивирования, включая Международный семинар архивирования Интернета (IWAW) (с 2001-го) и Шаблон:Iw (с 2003-го).

Чаще всего информацию со статических сайтов собирают с помощью поисковых роботов (например, Шаблон:Iw, Webrecorder, HTTrack), которые отправляют HTTP-запросы на веб-сервера и «захватывают» передаваемый контент и все гиперссылки из просканированных веб-страниц. Напротив, скрипты, шаблоны и контент динамических сайтов хранится на веб-серверах как отдельные ресурсы, поэтому архивировать такие порталы гораздо сложнее. Процесс проходит в два основных этапа — сохранение файловых данных из структуры каталогов веб-сайта и последующее архивирование информации из базы данных.

Определение

Термины веб-архивирование и веб-сохранение (Шаблон:Lang-en) часто используют как взаимозаменяемые, однако между ними существует важное различие: первый определяет весь процесс сохранения интернет-ресурса, а второй — только один из этаповШаблон:Sfn. Шаблон:Iw (IIPC) определяет веб-архивирование как:

«

[...] процесс сбора частей всемирной паутины, сохранение коллекций в архивном формате и последующее обслуживание архивов с целью предоставления к ним доступа и использования.

»
— Анонимус

Предпосылки

Шаблон:Main

Файл:VCF 2010 Domesday tray open.jpg
Компьютерный терминал с лазерным диском, содержащим информацию проекта BBC Domesday Project 1986 года

С начала 1990-х годов создание, хранение и распространение информации происходит в основном в цифровой среде. Уже к середине 1990-х годов начали устаревать ранее популярные носители информации, такие как магнитные ленты, дискеты, zip-накопители и компакт-диски, а доступ к старым файловым форматам затруднялся[1][2]. Стали исчезать многие крупные базы данных, которые не были скопированы на другие носители или продублированы на бумаге[3]. Так, все данные крупномасштабного проекта BBC Domesday Project, проведённого в 1980-е годы при участии более миллиона человек, были записаны на несколько дисков, которые к началу 2000-х годов были либо сломаны, либо потеряны[4][5].

Повсеместная утеря данных привела к тому, что отдельные исследователи начали обсуждать потенциальное наступление «цифрового тёмного века» (Шаблон:Lang-en) — периода, характеризуемого практически полным отсутствием письменных свидетельствШаблон:SfnШаблон:Sfn. Некоторые исследователи называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные ранее данные[6]. В 2003 году ЮНЕСКО выпустила «Хартию о сохранении цифрового наследия»[7], определяющую важность резервации цифровых данных, потеря которых может привести к «обеднению» человеческого наследияШаблон:SfnШаблон:Sfn. В 2015 году с заявлением о том, что человечество движется к «цифровому тёмному веку», выступил американский учёный и вице-президент Google Винтон Серф[8][9][10][11].

Другой предпосылкой для развития веб-архивирования является вымирание ссылок — ситуация, когда страницы становятся недоступны по прежним URL или изменяются их содержаниеШаблон:SfnШаблон:SfnШаблон:Sfn. Проведённый португальскими исследователями в 2017 году анализ показал, что около 80 % интернет-страниц недоступны в исходном виде уже спустя год после публикации, при этом 13 % ссылок в научных статьях исчезали в среднем через 27 месяцевШаблон:Sfn. В 2021 году учёные юридического факультета Гарвардского университета вместе с журналистами The New York Times (NYT) проанализировали жизнеспособность ссылок в более чем 550 тысячах выпущенных NYT онлайн-публикациях в период за 2000—2017 годы — около четверти используемых URL-адресов «вымерли»Шаблон:SfnШаблон:Sfn[12]Шаблон:Sfn[13]. Средняя продолжительность жизни веб-страницы составляет 44-100 дней, а на новостных сайтах и в социальных сетях информация может исчезать ещё быстрееШаблон:Sfn[14].

Информация в интернете может исчезать и по другим причинам. Так, в 2015 году Государственный департамент США и Агентство США по международному развитию инициировали удаление материалов о войне в Афганистане с целью уберечь сотрудничавших с американскими властями людей от преследования талибами[15]. Другой пример — выдвинутые в декабре 2021 года требования Роскомнадзора удалить из ряда российских СМИ материалы о расследованиях издания «Проект», ранее признанного нежелательной организацией[16][17].

Развитие

Начиная с 1980-х годов отдельные архивы и библиотеки начали сохранять электронные ресурсы с целью задокументировать хронику актуальных событий. Однако отправной точкой веб-архивирования считается создание в 1996 году «Архива Интернета» — некоммерческой организации, поставившей амбициозную цель сохранить все веб-страницы всего интернета, которых в тот момент было относительно немногоШаблон:SfnШаблон:Sfn. В конце 1990-х — начале 2000-х годов правительства многих развитых стран стали внедрять практики веб-архивирования, возложив ответственность за их ведение на национальные библиотеки, обладающие необходимым опытом и инструментами для архивацииШаблон:SfnШаблон:SfnШаблон:Sfn. К 2000 году национальные веб-архивы появились во многих странах, включая Великобританию, Новую Зеландию, США и ЧехиюШаблон:Sfn[18]Шаблон:Sfn.

С тех пор количество проектов по веб-архивированию растёт с каждым годомШаблон:Sfn. В 2011 году в мире действовало 42 программы, большинство из которых занимались сбором региональных веб-источниковШаблон:Sfn. Исследование 2020 года показало экспоненциальный рост числа учреждений, имеющих собственные репозитории, работа которых поддерживается благодаря нанятым специалистам и специализированному оборудованию. Большинство таких репозиториев пополняется по принципу самоархивирования — авторы самостоятельно размещают там свои материалыШаблон:Sfn. К 2019 году веб-архивы на национальном уровне были внедрены практически во всех странах Европейского союза, чаще всего — в рамках работы национальных библиотекШаблон:Sfn[19].

Организации

«Архив Интернета»

Шаблон:Main

Файл:Internet Archive mirror servers - Bibliotheca Alexandrina.jpg
Серверы «Архива Интернета», 2008 год
Файл:Brewster Kahle 2009.jpg
Брюстер Кейл в 2009 году

Первой крупнейшей инициативой по веб-архивированию стал «Архив Интернета» — некоммерческая организация, созданная в 1996 году для сохранения всех размещённых в интернете материаловШаблон:Sfn. Создателем стал американский программист Брюстер Кейл, одновременно запустивший «Архив» и коммерческую систему веб-архивирования Alexa Internet. В 1997 году он разработал браузерный плагин, через который Alexa Internet автоматически определяла и сохраняла в «Архив» «ценные» веб-страницы, ранжируя их по количеству посещений, перекрёстных ссылок и «кликов»Шаблон:Sfn. С 1998 года количество страниц для архивации увеличивалось вдвое каждые 3—6 месяцевШаблон:Sfn.

24 октября 2001 года «Архив Интернета» запустил сервис Wayback Machine, через который пользователи могли получить доступ к более чем 10 млрд заархивированных веб-страниц. В то время данные хранились на серверах Hewlett Packard и uslab.com и управлялись через операционные системы FreeBSD и LinuxШаблон:Sfn.

На 2021 год коллекция «Архива» состояла из множества подколлекций архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения[20]; при этом число заархивированных веб-страниц составило более 622 млрд[21].

WebCite

Шаблон:Main Сервис WebCite был запущен в 2003 году и стал первым инструментом веб-архивирования, позволяющим пользователям сохранять веб-сайты по запросу. WebCite быстро набрал популярность и уже к 2005 году около 200 журналов просили авторов архивировать используемые веб-страницы через WebCite перед отправкой рукописейШаблон:Sfn. Сервис не использует поисковых роботов для «захвата» страниц, архивация происходит напрямую по запросу пользователяШаблон:Sfn.

В 2013 году WebCite был под угрозой закрытия из-за недостатка финансирования, однако благодаря публичной кампании по сбору средств создателя Гюнтера Айзенбаха портал продолжал свою работу ещё шесть лет. С 2019 года он стал доступен только для чтения и перестал принимать запросы на архивацию[22][23].

Archive.today

Шаблон:Main Сервис archive.today (при создании — archive.is) был запущен в 2012 году одноимённой некоммерческой организацией[24]. Финансирование проекта осуществляется на деньги частных спонсоров. Также как и WebCite, archive.today сохраняет веб-страницы по запросу пользователей[25][26], размещая в открытом доступе функциональную копию веб-страницы и снимок экрана, представляющий статичную визуализацию страницы в формате PNG[27]. Размер заархивированной страницы со всеми изображениями не должен превышать 50 МБ[24].

Создатели archive.today также запустили специальное расширение браузера Mozilla Firefox, автоматически сохраняющее и выкладывающее в общий доступ копии каждой добавляемой пользователем в закладки веб-страницы[27][28].

web-arhive.ru

В Российской Федерации также был создан свой Вэб-архив на русский языкhttps://web-arhive.ru/

Национальные библиотеки

В большинстве развитых стран действуют законы об обязательном экземпляре, возлагающие юридическую ответственность на национальные библиотеки сохранять один экземпляр каждого опубликованного в этой стране печатного издания. С повсеместным развитием средств электронной коммуникации действие закона распространили и на веб-сайтыШаблон:Sfn[29]. Так, согласно Шаблон:Iw, Шаблон:Iw и Шаблон:Iw обязаны сохранять все важные постановления правительства Великобритании. Поскольку чиновники всё чаще публикуют свои отчёты в интернете, веб-архив ежемесячно посещают более 100 млн пользователей (на 2013-й год)Шаблон:Sfn.

В 1996 году Национальная библиотека Швеции инициировала проект Kulturar, в рамках которого осуществлялось крупномасштабное сохранение всей шведской сети доменов[30]. К началу 2005 года было собрано более 350 000 веб-сайтов или около 10 терабайт данных, благодаря чему веб-архив стал крупнейшим на тот момент в миреШаблон:Sfn. В 1997 году была создана совместная инициатива национальных библиотек Дании, Финляндии, Исландии, Норвегии, Швеции под названием Nordic Web Archive (NWA). В рамках NWA велась разработка инструментов и обсуждались методы веб-архивирования для скандинавских стран. В 2004 году NWA выпустил программный пакет для доступа к архивированным веб-документам, который впоследствии лёг в основу Шаблон:Iw ToolkitШаблон:Sfn[31]. В этом же году Национальная библиотека Австралии запустила Шаблон:Iw — проект по сохранению электронных ресурсов Австралии[32]Шаблон:SfnШаблон:Sfn. В 2019 году коллекция Pandora вошла в Шаблон:Iw — один из крупнейших национальных веб-архивов в мире[33].

Коллаборации

Файл:IIPC logo 2012.svg
Логотип Международного Консорциума Сохранения Интернета
Файл:Internet Memory logo.svg
Логотип проекта Internet Memory Foundation, закрытого в 2018 году

В 2001 году был создан Международный семинар архивирования Интернета (IWAW)Шаблон:Sfn — площадка по обмену исследованиями и опытом в сфере веб-архивирования[34], а в 2003-м по инициативе «Архива Интернета» основали Шаблон:Iw, в рамках которого ведётся разработка стандартов и инструментов веб-архивированияШаблон:Sfn[35]. Помимо «Архива», в состав IIPC вошли национальные библиотеки Франции, Австралии, Канады, Дании, Финляндии, Исландии, Италии, Норвегии, Швеции, Великобритании, США. В 2008-м в рамках IIPC был разработан Web ARChive или WARC — формат для архивации веб-ресурсовШаблон:Sfn. На 2021 год в IIPC состояло более 50 членов[36].

Организации часто сотрудничают для создания объединённых веб-архивов. Так, с 2004 по 2018 год действовал Европейский цифровой архив (впоследствии переименованный в Шаблон:Iw), занимающийся сбором электронных документов в странах Европейского союза[37]Шаблон:SfnШаблон:Sfn. Среди прочих, в его состав входили Национальные архивы Великобритании, Общество Макса Планка, Берлинский технический университет, Саутгемптонский университет, Шаблон:Iw. В начале 2000-х годов департаменты китаеведения Гейдельбергского и Лейденского университетов совместно запустили веб-архив DACHS, содержащий электронные материалы по синологии[38]Шаблон:Sfn. Такие консорциумы как NWA и UKWAC проводили программы совместного сбора данных в партнёрстве с другими организациями[39]Шаблон:SfnШаблон:Sfn. В конце 1990-х годов Европейская комиссия профинансировала создание Networked European Deposit Library (NEDLIB) — проекта по сбору, описанию, хранению и открытию доступа к сохранённым европейским веб-сайтам[40]. Выпущенный в 2000 году NEDLIB Harvester стал одним из первых поисковых роботов, специально созданных для архивации данных. Впоследствии его использовали в ряде проектов, в том числе для сбора данных с нидерландских, эстонских и исландских веб-доменовШаблон:SfnШаблон:Sfn.

В июле 2011 года Национальный архив Великобритании совместно с Internet Memory Foundation запустили пилотный проект по веб-архивированию цифровых данных для местных органов власти. Проект действовал в семи архивах муниципальных образований, охватывающих более 20 местных органов власти. Персонал прошёл бесплатное обучение по созданию кураторского веб-архива для своей области[41].

Университеты развитых стран также участвуют в развитии веб-архивирования. Например, в Мичиганском , Индианском, Калифорнийском, Иллинойсском и других университетах предлагают курсы по обучению архивации цифровых материаловШаблон:Sfn, а несколько учреждений создали собственные веб-архивы для исследовательских целей — Stanford WebBase Archive (Стэнфордский университет), Socio-Sense (Токийский университет), веб-информационный центр (Пекинский университет)Шаблон:Sfn.

Отбор источников

Перед началом архивации каждая организация определяет критерии «отбора» источников. Таких критериев может быть один или несколько, в зависимости от размера и целей организацииШаблон:SfnШаблон:Sfn. Некоторые веб-архивы, такие как «Архив Интернета», ставят перед собой цель собрать все возможные веб-страницы — такой подход называют неселективным или широким сканированием. В его основе лежит принцип взаимосвязанности всемирной паутины, согласно которому по-настоящему «сохранить» какую-либо тему можно только собрав все существующие веб-страницы, так как они все связаны между собой. Помимо этого, отбор веб-сайтов является дорогостоящим и трудоёмким процессом, который также может привести к субъективной выборкеШаблон:Sfn. Однако подход «Архива» считается невыполнимым на практике — сохранение всех страниц невозможно из-за ограничений, связанных с авторским правом, и даже «Архив Интернета» сохраняет только доступные общественности материалыШаблон:Sfn.

Альтернативой неселективному подходу к отбору является выборочный подход или выбор ресурсов, основываясь на их принадлежности к заранее заданным критериям — домену (например, .gov или .edu), теме, событию, типу мультимедиа или жанруШаблон:Sfn. Выборочный подход часто совмещают с практиками широкого сканирования — например, если организация архивирует все порталы с определённым доменным именем. Так, Национальная библиотека Швеции с 1996 года производит сбор всех веб-сайтов с доменом «.se»Шаблон:SfnШаблон:Sfn, а Национальная библиотека Великобритании архивирует веб-сайты с доменами «.gov.uk», «.org.uk» и «.co.uk». Библиотека НАСА Центра космических полётов Годдарда сохраняет все веб-страницы с доменным именем ЦентраШаблон:Sfn. Главным преимуществом выборочного архивирования является то, что такой подход позволяет создать более управляемые по размеру коллекции со связанными ресурсамиШаблон:Sfn.

Выборочный подход применяют и для создания тематических коллекций. Например, DACHS собирает социальные и культурные ресурсы по синологии, а Библиотека Конгресса, совместно с Архивом Интернета, скомпилировала веб-архивы о президентских выборах в США и событиях 11 сентября. Британская библиотека специализируется на веб-сайтах, представляющих «ценность для национальной культуры»Шаблон:Sfn. Такой подход применяет и проект Pandora Национальной библиотеки АвстралииШаблон:SfnШаблон:Sfn. В 2006 году «Архив Интернета» запустил сервис Archive It по созданию тематических веб-коллекцийШаблон:Sfn, которым зачастую пользуются отдельные организации, например, Национальный музей женского искусстваШаблон:Sfn.

Некоторые организации архивируют ресурсы по типу представленных источников. Так, библиотека Центра космических полётов Годдарда избегает сканирования больших видеофайлов и программных продуктов. Наоборот, другие проекты веб-архивируют видео на Youtube или собирают блоги, виртуальные газеты — например, Национальная библиотека Франции создала отдельную веб-коллекцию для Живых ЖурналовШаблон:Sfn.

Сбор данных

Статические сайты

Чем проще и статичнее сайт, тем легче его архивировать[42] — копии данных загружаются с веб-сервера в виде файлов, которые впоследствии можно преобразовать в другие форматыШаблон:SfnШаблон:SfnШаблон:Sfn.

Процесс автоматического сбора веб-страниц через поисковых роботов называют web harvesting или «сканированием». Роботу передают список URL-адресов, следуя по которым он отправляет HTTP-запросы на веб-сервера и «захватывает» передаваемый контент и все гиперссылки из просканированных веб-страницШаблон:Sfn. Затем автоматизированное ПО преобразует информацию в формат WARC, и в итоге получается файл, который можно воспроизвести с помощью таких инструментов, как Wayback Machine[43]. Примерами поисковых роботов являются разработанный «Архивом Интернета» в 2004 году Шаблон:IwШаблон:Sfn, а также HTTrack[44] и Wget[45]. Сеть «сканеров» позволяет организациям сохранять копии выбранных сайтов с некоторой периодичностью — например, ежедневно или ежегодно[43]. Для более точечного архивирования используют инструменты меньшего масштаба — например, HTTrack, который позволяет загружать копии веб-сайтов на локальный компьютер[43].

Динамические сайты

Архивировать динамические сайты гораздо сложнее, чем статические, поскольку контент, скрипты и шаблоны хранятся на веб-сервере как отдельные ресурсы. а вид и содержимое страницы формируется в зависимости от браузера клиента и настроек сервера. В отличие от статических веб-сайтов, автоматической обработки HTTP-запроса недостаточно, поскольку со стороны сервера сайт генерирует контент, используя базу данныхШаблон:Sfn. Поэтому сохранение таких ресурсов происходит в два этапа — сохранение файловых данных, находящихся в структуре каталогов веб-сайта, и архивирование информации базы данныхШаблон:Sfn. Для динамических сайтов использование поисковых роботов имеет свои ограниченияШаблон:Sfn. К инструментам веб-архивирования динамического контента относят программные обеспечения Software Independent Archiving of Relational Databases (SIARD), разработанное Швейцарским федеральным Архивом, и DeepArc Национальной библиотеки Франции. SIARD автоматически анализирует и отображает структуру исходной базы данных. Затем он экспортирует структуру в виде текстового файла, содержащего определение данных, описанное с использованием SQL — международного стандарта для описания реляционной базы данных. Впоследствии содержимое экспортируется в качестве обычного текстового файла, а метаданные сохраняются как XML-документШаблон:Sfn.

Архивация социальных сетей

Первые проекты по архивированию социальных сетей начали появляться с 2008 года как систематическое широкое сканирование платформ. Так, Национальная библиотека Новой Зеландии начала работу по созданию архива опубликованных в Твиттере сообщений, а Национальная библиотека Франции сканировала Facebook. Однако из-за большого объёма производимого контента, отсутствия технических стандартов по сбору и хранению информации, а также постоянно меняющихся технических деталей работы порталов, впоследствии организации начали применять выборочный подход к веб-архивированию социальных сетей и сохранять сообщения только о конкретных событиях или чрезвычайных ситуациях. Отдельные организации, например, Национальная библиотека Франции или Национальная библиотека Канады, запустили непрерывный автоматизированный сбор новостей и контента социальных сетей, чтобы не упустить реакцию людей на непредвиденные события. Выборка осуществляется по заданным хештегам или ключевым словам, за определённый период или конкретной платформеШаблон:SfnШаблон:Sfn.

Инструменты

Скриншот инструмента Wget
Скриншот инструмента Wget

Для сбора веб-сайтов используют различные инструменты веб-архивирования. Наиболее часто встречается поисковой робот Heritrix — доступный по лицензии свободного программного обеспечения веб-сканер общего назначения, разработанный с учётом задач веб-архивирования. Heritrix сохраняет файлы в формате WARC и хорошо подходит для крупномасштабных операций сканирования, однако в меньшей степени «захватывает» динамические сайты или страницы в социальных сетях. Разработанный на основе Heritrix NetarchiveSuite предоставляет дополнительные функции в области долгосрочного хранения и доступа к материаламШаблон:Sfn.

Webrecorder использует браузер для сбора содержимого веб-сайтов, тем самым решая частые проблемы других поисковых роботов — захват динамического контента, Adobe Flash, мультимедиа. Программа «записывает» веб-страницы во время их просмотра пользователем, поэтому хорошо подходит для выборочного сканирования. Содержание также сохраняется в формате WARCШаблон:Sfn. Другой поисковой робот, Brozzler[46], использует движок браузера Google Chrome для сбора страниц и предлагает те же преимущества, что и Webrecorder, но не требует взаимодействия с пользователем во время сканированияШаблон:Sfn.

HTTrack позволяет загружать копии веб-сайтов на локальный компьютер, и впоследствии пользователь может просмотреть их через браузер[47]. Wget и аналогичный инструмент Wpull — универсальные инструменты командной строки, которые имеют встроенные функции сканирования веб-страниц, сравнимые с HTTrack. Wpull лучше подходит для масштабного архивированияШаблон:Sfn.

Из-за динамической структуры сайтов социальных сетей для их архивации требуются специализированные инструменты. Обычно веб-архивирование выполняется с использованием интерфейсов прикладного программирования или API, предоставляемых разработчиками. F (b) arc — инструмент командной строки, который можно использовать для архивирования данных с помощью интерфейса Facebook Graph. Twarc — инструмент и библиотека командной строки, которые упрощают использование API-интерфейсов Twitter. Social Feed Manager позволяет собирать данные из Twitter, Tumblr, Flickr и Sina WeiboШаблон:Sfn.

Чаще всего для архивирования используют форматы ARC и WARC. Большинство инициатив используют решения на основе Lucene для поддержки полнотекстового поиска, включая NutchWAX или Solr, Wayback Machine для поддержки поиска URL и отображения заархивированного контентаШаблон:Sfn. Инструменты JWAT, node-warc, WARCAT, warcio и warctools могут быть использованы для чтения и извлечения метаданных из файлов WARCШаблон:Sfn.

Разрешение

Будет ли организация подчиняться стандарту исключений для роботов или запрашивать разрешение на архивирование у владельцев сайта, зависит от многих факторов — вида контента, масштабов веб-архивирования, правовой средыШаблон:SfnШаблон:Sfn. Однако даже при обращении за разрешением только около 30—50 % владельцев сайтов откликаются на просьбу[48].

Как правило, правительственные организации, наделённые законным правом хранить публичные записи (например, Национальное управление архивов и документации (США) и Национальные архивы Великобритании), не нуждаются в разрешении на сканирование. Согласно французскому закону об авторском праве от 2006 года, Национальная библиотека Франции может игнорировать роботов при сканировании сайтов с национальными доменамиШаблон:SfnШаблон:Sfn. Другие организации, такие как «Архив Интернета», в своей работе используют принцип отказа — данные удаляются из коллекции по просьбам правообладателей, которые могут доказать авторские права, предоставив описание материала, контактные данные заявителя и подписанное заявлениеШаблон:SfnШаблон:SfnШаблон:Sfn.

Метаданные

Шаблон:Main Веб-архивы обычно имеют иерархическую структуру — сеанс сканирования захватывает множество сайтов, каждый из которых ведёт на отдельную веб-страницу, содержащую видео, текст и файлы изображений. Для каждого из «уровней» генерируются метаданныеШаблон:SfnШаблон:Sfn.

Подход к созданию метаданных зависит от масштаба и ресурсов, которыми обладает организация. Так, крупные веб-архивы часто полагаются на автоматическое создание метаданных. Некоторые метаданные, включая время сбора, код состояния (например, ошибка 404 для не найденного или 303 для перенаправления), размер в байтах, URI или тип MIME (например, text/HTML), автоматически «захватываются» поисковыми роботами. Информация также может быть извлечена из метатегов HTML-страницШаблон:SfnШаблон:Sfn.

Небольшие веб-архивы могут генерировать метаданные вручную. Литературный архив Калифорнийского университета в Лос-Анджелесе использует подробные заметки, созданные персоналом в процессе сбора и анализа веб-страниц, для генерации метаданныхШаблон:SfnШаблон:Sfn. В веб-архиве Национального университета Тайваня действует трёхуровневая иерархическая классификация. Метаданные могут также могут быть созданы с помощью пользовательских тегов, комментариев или оценокШаблон:SfnШаблон:SfnШаблон:Sfn.

Проблемы

Пользователи обращаются к веб-архивам по разным причинам — для проведения исследований, компиляции собственной базы данных или просмотра старых версий отдельных веб-ресурсов. Однако зачастую доступ к таким коллекциям осложнён отсутствием общего поиска по доступным базам данных и неудобным интерфейсом. Для доступа и обработки сохранённой информации часто требуются технические навыки работы со специализированными форматами файловШаблон:SfnШаблон:SfnШаблон:Sfn. Отдельные исследователи считают, что именно по этим причинам ссылки на веб-архивы по-прежнему редко встречаются в научных работах, а коллекции — не изучаютсяШаблон:SfnШаблон:Sfn.

Коллекция веб-архива может оказаться неполной или предвзятой из-за невозможности заархивировать «закрытые» сайты и/или непрофессиональной разработки стратегий архивирования — например, когда архивируют только англоязычные порталы крупных западных стран. Несмотря на то, что часть архивов имеет юридическое право игнорировать стандарт исключений для роботов, коллекции остальных организаций существенно лимитированы при соблюдении стандарта[42][49][42].

Автоматическое веб-архивирование через использование поисковых роботов позволяет «захватить» большое количество информацииШаблон:Sfn, однако некоторые интерактивные элементы JavaScript сохранить невозможно и архивная версия теряет свою функциональность[42][50].

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend