Русская Википедия:Электронное архивирование

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Электро́нное архиви́рование (цифровое сохранение) — ряд практик, стратегий и рабочих процессов по защите электронных документов от устаревания и потери информации. Деятельность по архивации цифровых данных направлена на создание, обслуживание и сохранение целостности цифровой информации. Для обозначения практик электронного архивирования используют несколько терминов — digital preservation (дословно — электронное или цифровое сохранение), digital archiving (электронное или цифровое архивирование) или digital management (управление цифровыми данными). Зачастую эти понятия употребляют как взаимозаменяемые, однако использование отдельных терминов зависит от страны.

Практики электронного архивирования начали появляться с середины 1990-х годов, когда с развитием информационных технологий и новых видов цифровых носителей всё чаще стал подниматься вопрос о необходимости долгосрочного хранения цифровых объектов. Потребность в этом возникла из-за относительно короткого срока службы цифровых носителей — например, надёжность хранения информации на дискетах и картах памяти составляет лишь несколько лет, а в случае оптических дисков — от 3 до 20 лет. Наиболее устойчивыми способами хранения информации считаются магнитные ленты, на которых данные могут надёжно храниться от 15 до 30 лет. Вплоть до начала 1990-х цифровая информация дублировалась в бумажных копиях. Однако таким образом архивировались далеко не все материалы — будучи закрытыми для общественности, множество электронных документов не подлежало архивации.

Деятельность в сфере электронного архивирования регулируется через серию принятых международных стандартов и отчётов рабочих групп, включая модель Шаблон:Iw (OAIS), Trusted Digital Repository, Digital Preservation Network (DPN), Шаблон:Iw, Шаблон:Iw и другие. Процесс архивирования цифровых материалов осуществляется через стратегии консервации (работа с материалами в оригинальных форматах и на оригинальных носителях, благодаря использованию исходной технологии или ранее применявшихся аппаратно-программных средств), эмуляции (воспроизведение функциональности устаревшей системы для обеспечения работы с устаревшими форматами данных), инкапсуляции (включение технического описания документа в состав самого цифрового объекта, таким образом уменьшая его зависимость от внешней среды, так как данная информация позволяет либо воспроизвести исходную среду, либо перенести документ в новую), миграции (перенос электронных документов на другие носители или же в другую операционную систему — например, с магнитной ленты на компакт-диск), цифровой археологии (метод архивирования материалов, который состоит в спасении тех цифровых объектов, которые стали недоступными из-за технологического устаревания и/или физической деградации), стратегии обновления (перенос информации с одного долговременного носителя на другой) или веб-архивирования​​ (процесс сбора, сохранения и извлечения сайтов и материалов из интернета с целью их размещения в электронном архиве для предоставления доступа следующим поколениям).

Предыстория

Первые попытки по автоматизации действий прослеживаются вплоть до XIV века, когда были изобретены карильоны — механические звонницы, управляемые педальным механизмом, который приводил рычаги в нужную последовательность по мере вращения за счёт скрепления с металлическим цилиндром со штифтамиШаблон:Sfn. Этот принцип барабанной автоматизации был впоследствии внедрён и в текстильной промышленности — в XVIII веке была создана первая перфокарта или бумажная лента с отверстиями, через которую проходили челноки[1]. Вскоре перфокарты начали применять для автоматизации вычислений, они легли в основу аналитической машины Чарльза Бэббиджа[2], а позднее — табуляторов и компьютеров первого поколения[3][4].

Файл:Punch-card-blue.jpg
Перфокарта, формат IBM

Вплоть до 1970-х годов перфокарты широко применялись для хранения и ввода данных — на них могло быть закодировано вплоть до 80 символов. Однако быстрое развитие вычислительных машин привело к появлению альтернативных способов хранения и автоматизации данных[5]. В 1954 году был создан первый магнитный носитель Шаблон:Iw, а в 1956-м — жёсткий диск[6]. Уже в 1960-х годах на смену перфокарте пришла магнитная лента, ставшая ведущим способом записи и автоматизированной обработки информации[7][8]. С развитием и внедрением магнитных дисков и флеш-памяти для хранения и записи информации значительно повысилась их ёмкость и производительность. Однако появилась проблема недолговечности носителей информации, что негативно влияло на сохранность данных. Так, надёжность хранения информации на магнитных дисках и флеш-картах составляет лишь несколько лет — эти носители неустойчивы как к температуре выше 100 ℃, так и к сильным электромагнитным полям. Информация на оптических дисках постепенно стирается под воздействием 50—70 ℃, они способны хранить данные от 3 до 20 лет. Самыми надёжными способами хранения информации считаются магнитные ленты, на которых данные могут храниться от 15 до 30 лет[9].

Файл:Brewster Kahle 2009.jpg
Создатель Архива Интернета Брюстер Кейл в 2009 году

С развитием информационных технологий и новых видов цифровых носителей стал более актуальным вопрос о долгосрочном хранении электронной информации. Вплоть до начала 1990-х годов большинство цифровой информации дублировали на бумажных копиях. Однако таким образом архивировались далеко не все материалы и множество электронных документов не подлежало бумажному архивированию по причине закрытости для общественностиШаблон:SfnШаблон:Sfn. Первые проекты по электронному архивированию начали появляться во второй половине 1990-х годов. Так, в 1996 году австралийский проект Preserving Access to Digital Information (PADI) получил государственное финансирование. Его выполнение было поручено Национальной библиотеке Австралии. В рамках PADI публиковались отчёты по проектам и журнальные статьи по широкому кругу тем, а также происходило формирование профессионального сообщества в сфере сохранения цифровой информацииШаблон:Sfn. В этом же году были запущены основанный Брюстером Кейлом проект по архивированию веб-страниц Архив Интернета[10], проекты Национальной библиотеки Швеции (Kulturarw Heritage Project) и Национальной библиотеки Австралии (PANDORA Project)[11]. В 1998 году ряд европейских национальных библиотек образовал Networked European Deposit Library (NEDLIB) для сохранения электронных объектов в библиотечной системе[12]. Одновременно с этим начали развиваться и проекты по разработке эффективных стратегий архивирования — Шаблон:Iw (1999) и Project CAMiLEON (1999). Уже начиная с 2000-х годов практики по сохранению электронных данных начинают внедрять повсеместно. Так, в 2000-м Библиотека Конгресса инициировала проект Шаблон:Iw по сбору и архивированию электронной информации, а нидерландский проект Digital Preservation Testbed стал частью национальной программы по сохранению цифровой информации. В 2001 году была создана Шаблон:Iw — коалиция организаций по внедрению практик электронного архивирования в Великобритании и других странах. В 2006 году был основан аналогичный проект — Digital Preservation Europe[13][14].

Повсеместно внедряемые стратегии по электронному архивированию изменили роли библиотек, архивов и издательств, традиционно отвечающих за архивацию информации. Начиная с 2000-х годов сохранением электронных записей также занимаются частные организации, центры научных данных, некоммерческие организацииШаблон:Sfn.

В 2003-м ЮНЕСКО предприняло попытки объединить международные усилия по созданию систематизированного подхода к электронному архивированию, опубликовав Хартию «О сохранении цифрового наследия», призывающую мировое сообщество к внедрению стратегий по сохранению находящихся в опасности электронных объектов. В 2012 году на конференции программы ЮНЕСКО «Память мира» было вновь заявлено о необходимости создания унифицированной международной попытки по сохранению и предоставлению доступа к электронному наследию. В результате в 2013 году была создана программа PERSIST, направленная на сохранение мирового документального наследияШаблон:Sfn[15]. Шаблон:Врезка

Основные положения

Определение

Для обозначения практик по электронному архивированию используют несколько терминов — digital preservation (Шаблон:Tr), digital archiving (Шаблон:Tr) или digital management (Шаблон:Tr). Зачастую эти понятия употребляют как взаимозаменяемые, однако использование отдельных терминов зависит от страны. Так, например, в США термин «цифровое сохранение» (digital preservation) используется чаще и, как правило, охватывает все действия по управлению электронными архивами с момента их создания. Впервые термин «digital preservation» был использован в 1992 году в статье журнала Theater Crafts, посвящённой новым видам цифрового сохранения материалов. В Великобритании, наоборот, термин «управление цифровыми данными» (digital management) используется для обозначения практик по управлению жизненным циклом электронных документов, а digital preservation — для тех действий, которые направлены на обеспечение их доступности в будущем. При этом термин preservation или «сохранение» в английском языке используется чаще, чем термин archiving или «архивирование», поскольку последний подразумевает сохранение физических документов в существующих материальных хранилищах. По этой причине preservation чаще относят к электронным объектамШаблон:SfnШаблон:SfnШаблон:Sfn.

Созданная в 2007 году рабочая группа Американской библиотечной ассоциации определила электронное архивирование как сочетание стратегий, принципов и практик, направленных на точное воспроизведение аутентифицированного контента с течением времени, независимо от проблем, связанных с носителем и изменениями в технологиях хранения. Понятие применяется как к изначально созданным в электронном формате документам, так и к оцифрованным материалам[16]. Другими словами, это деятельность по отбору, хранению, и сохранению информации для обеспечения к ней доступа для будущих поколенийШаблон:Sfn[17]. Шаблон:Iw определяет электронное архивирование как осуществляющее широкий спектр видов деятельностей действие, направленное на продление срока службы машиночитаемых компьютерных файлов и защиту их от отказа носителя, физической потери и устареванияШаблон:SfnШаблон:Sfn.

Цели и принципы

Электронное архивирование стремится защитить и сохранить информацию для будущих поколенийШаблон:SfnШаблон:SfnШаблон:Sfn. Деятельность по сохранению электронных данных направлена на создание, обслуживание и сохранение целостности цифровой информации. Создание подразумевает указание полных и чётких технических характеристик файлов, изготовление надёжных мастер-файлов и достаточных описательных, административных и структурных метаданных для обеспечения доступа в будущем. Под обслуживанием понимают документирование всех действий, совершаемых с файлами и полное отслеживание изменений. Сохранение информации подразумевает создание надёжной вычислительной и сетевой инфраструктуры, позволяющей сохранять и синхронизировать материалы на нескольких сайтах, а также непрерывный мониторинг и разработку стратегий по предотвращению потери данных[16]Шаблон:Sfn.

В зависимости от поставленной цели электронное архивирование может быть долгосрочным (доступ предоставляется на неопределённый срок), среднесрочным (доступ в течение определённого периода времени) и краткосрочным (доступ к цифровым материалам в течение определённого периода времени и/или до тех пор, пока он не станет недоступным — например, из-за изменений в технологиях)[17]Шаблон:Sfn. Выделяют три основных инфраструктурных компонента электронного архивированияШаблон:Sfn:

  • организационный (политика, стратегии, практики, акторы);
  • технологический (необходимое оборудование, программное обеспечение, безопасная среда);
  • структурный (финансирование запуска, продолжения и поддержки программ электронного архивирования).

При этом технологические аспекты электронного архивирования могут быть разделены на следующие группыШаблон:Sfn:

  • физические (носители информации, репликация)
  • логические (форматы файлов, структурированные данные; сохранение и организация битов)
  • интеллектуальные (сохранение удобства использования/доступности, в первую очередь через метаданные)

Оценка архивных документов

Решения о необходимости архивирования цифровых объектов принимаются на основе оценивания их непреходящей ценности. Оценивание является лишь одной из стратегий, архивисты также используют методы статистической выборки и анализа рисков для выбора материалов для сохранения. Статистическая выборка полагается на статистические методы для создания репрезентативной выборки и соответствующего отбора бумажных и цифровых документов для сохранения или оцифровки. Метод анализа рисков заключается в оценке потенциальных трудностей, которые могут возникнуть при работе с цифровыми ресурсами, а также их потенциальных последствий — например, риск устаревания формата файлов и носителей, риск потерь, связанных с несохранением цифровых ресурсов и так далее. Как правило, анализ рисков осуществляется вместе с другими критериями отбора, такими как оценка затратШаблон:Sfn.

К 1980-м годам всё больше архивистов начали обращать внимание на то, что создание цифровых объектов и любых электронных записей проводилось без учёта требований к их длительному сохранению. В начале 1990-х годов стала очевидна проблема устаревания программного обеспечения и, соответственно, невозможности надёжного архивирования созданной с его помощью информации. С внедрением электронного архивирования появились и первые попытки по регламентации процесса. Так, была создана рабочая группа проекта InterPARES, которая занялась разработкой модели по отбору подлежащих архивированию электронных объектовШаблон:Sfn[18].

Выделяют макро- и микро-оценивание. Под макро-оценкой понимают отбор документов для архивирования по принципу важности контекста — все ресурсы, созданные определёнными организациями, акторами, или в заданный промежуток времени, будут считаться важными и ценнымиШаблон:Sfn. Согласно разработанной InterPARES модели, оценка контекстов электронных записей состоит из четырёх основных ступеней:

  • Составление и анализ информации о записях и их контекстах.

Решение об архивировании файлов может приниматься на основе юридическо-административного контекста (правовой и административной системе, в которой были созданы материалы), финансового контекста (создающий орган, его полномочия, структура и функции), процедурного контекста (деловой процедуре, в ходе которой создаются записи), документального контекста (структура и взаимосвязи с другими документами) или технологического контекста (технические компоненты электронных систем, в которых создаются цифровые объекты)Шаблон:Sfn.

  • Оценка важности.

Архивисты также собирают данные о непреходящей ценности и аутентичности электронных материалов. Непреходящая ценность объекта определяется исходя от способности записей служить интересам или потребностям создателей и общества. Она может быть поставлена под сомнение в тех случаях, когда сохранность материалов могла быть нарушена. Если у оценщика есть веская причина подозревать, что записи потеряли аутентичность и отличаются от своей оригинальной версии, то их архивирование ставится под вопросШаблон:Sfn.

  • Определение возможности сохранения.

Согласно рекомендациям рабочей группы InterPARES, определение возможности сохранения осуществляется в несколько этапов. Сначала эксперт определяет содержание материалов и те технические элементы, которые необходимо сохранить в соответствии с требованиям к подлинности. Затем оценщик согласовывает эти требования по сохранению с возможностями организациями, ответственной за постоянное сохранение архивируемых записейШаблон:Sfn.

  • Принятие решения об оценке.

На основе предыдущих оценок критериев применяется решение о сохранении документаШаблон:Sfn.

Микро-оценка заключается в определении ценности отдельных документов. Самым главным её критерием является соответствие документа политике сбора хранителя — из-за несоответствия этим критериям запрос на электронное архивирование может быть отклонён, даже в случае ценных ресурсов. Например, Earth Resources Observation and Science (EROS) отказались от доступа к набору данных космической программы Аполлон, состоящего из тысячи кадров, снятых НАСА во время миссии. Несмотря на то, что кадры имеют неоспоримую ценность для США, EROS отказался от них, так как большинство фильмов были сняты с космического корабля или поверхности Луны, тогда как миссия организации заключается в сохранении фильмов и фотографий, сделанных с Земли. Второй по важности критерий оценки — ценность цифровых ресурсов, которая также может быть первичной и вторичной. Под первичной ценностью понимают административную, фискальную и юридическую ценности. Вторичная ценность заключается в полезности, удобстве использования и доступности материалов. Третий критерий оценки — стоимость, которая может стать решающим фактором в выборе нескольких версий одного и того же материала. Также архивисты принимают во внимание и осуществимость архивирования, поскольку некоторые хранители отказываются принимать цифровые ресурсы в определённых форматах файлов или носителях, поскольку не могут обеспечить долгосрочную сохранность отдельных материаловШаблон:Sfn.

Виды цифровых объектов

Электронное архивирование применяют в основном к объектам, созданным в цифровой среде или оцифрованным. К первой категории относят данные, созданные с использованием какой-либо цифровой технологии. Под оцифрованными материалами понимают данные, преобразованные из аналоговой формы в цифровую с помощью сканирования или изменения форматаШаблон:Sfn. Чаще всего электронное архивирование применяется по отношению кШаблон:Sfn:

  • оцифрованным версиям документов;
  • цифровым материалам, не имеющим печатного аналога;
  • отдельным объектам, таким как тексты, изображения, аудиозаписи;
  • коллективным ресурсам, таким как веб-сайты, блоги, электронные журналы;
  • наборам данных, состоящих из множества отдельных научных, компьютерных и других материалов;
  • записям сообщений, таким как электронные письма, сообщениям в мессенджерах, твитам, публикациям в Facebook, и другим аналогичным публикациям в интернете;
  • метаданным, которые способствуют долгосрочному хранению файлов и извлечению необходимых данных, благодаря включению в файл дополнительной информации об объекте (описание формата файла, программное обеспечение, история изменений).

Репозитории

Шаблон:Main

Файл:Digital preservation in KarRC RAS ru 2016.png
Схема распространения и долговременного хранения научной информации в сети внутренних электронных ресурсов Карельского научного центра РАН (отмечены знаком «+») и внешних (отмечены знаком «-»), 2016 год

Электронные репозитории или хранилища данных являются одним из центральных элементов электронного архивирования. В репозиториях сохраняются все виды цифровых объектов вместе с соответствующими описательными и административными метаданными. В качестве цифровых объектов могут выступать статьи в электронном журнале, оцифрованные изображения фотографий, числовые данные, цифровые видео, полные версии книгШаблон:Sfn. В рамках движения за открытый доступ репозитории связывают с «зелёным» путём или практикой самоархивирования — авторы научных материалов могут самостоятельно размещать статьи в подходящий раздел электронного архива и снабдить её кратким описаниемШаблон:SfnШаблон:Sfn. Один из первых крупных тематических репозиториев arXiv.org появился в 1991 году. Он предоставляет доступ к научным работам по математике, физике, информатике, количественной биологии. Репозитории позволяют не только получить доступ к коллекциям электронных копий работ, но и автоматически добавлять публикации в базу Citebase, которая обеспечивает мониторинг индекса цитированияШаблон:Sfn.

Репозитории могут быть институциональными, дисциплинарными (или тематическими), а также национальными. Тематические репозитории предоставляют доступ к литературе в одной или нескольких областях, а институциональные хранят работы, выпущенные в рамках одного учреждения — как правило, это технические отчёты, диссертации, базы данных, статьи, печатные издания. Примером институциональных репозиториев является DSpace Массачусетского технологического институтаШаблон:Sfn. Отдельные репозитории были созданы в результате сотрудничества с крупнейшими научными изданиями — например, Springer Nature поддерживает работу сервиса In Review, а Elsevier — ChemRN. Также под эгидой некоммерческого Центра открытой науки действуют ряд национальных репзиториев, включая Arabirxiv (препринты из арабских стран), Frenxiv (французский сервер), INArxiv (индонезийский), Indiarxiv (индийский). Также препринты стран Латинской Америки публикуются в репозитории Шаблон:Iw[19]Шаблон:Sfn.

Для создания и внедрения институциональных репозиториев организации используют пакеты программного обеспечения с открытым исходным кодом. В их число входят Eprints и DSpace. Выпущенное в 2002 году приложение DSpace представляет собой универсальное приложение-репозиторий с открытым исходным кодом, разработанное совместно Шаблон:Iw и Шаблон:Iw и предназначенное для многопрофильных исследовательских организаций. DSpace использует соответствующий стандарт метаданных «Дублинское ядро» для описания цифровых объектов, а также поддерживает Шаблон:IwШаблон:Sfn. Среди других крупных тематических репозиториев выделяют основанный в 1996 году PubMed, где публикуются работы по медицине и биологии, PhilSci-Archive с работами по философии, а также Social Science Research Network (SSRN), в котором с 1994 года выкладывают работы по социальным и гуманитарным наукамШаблон:Sfn. Одним из крупнейших архивов открытого доступа является Шаблон:Iw, созданный в 2003 году. На сайте осуществляется публикация документов Европейского союза, которые предназначены для публичного распространения. На январь 2016 года в архиве содержалось более 41 800 документов ЕС и около 7 300 частных работ[20]. В ряде стран были осуществлены национальные инициативы по обеспечению инфраструктурной поддержки репозиториев — например, проект Шаблон:Iw в Великобритании, DARE в Нидерландах и проекты правительства Австралии на сумму $12 млн по продвижению репозиториев. Отдельные организации также могут приобретать сервисы, которые будут предоставлять доступ к единым облачным ресурсам. Так, Amazon предлагает сразу несколько облачных серверов, включая Amazon S3 по файловому хостингуШаблон:Sfn.

Одновременно с этим разрабатываются системы, которые осуществляют поиск в нескольких репозиториях одновременно. Примером подобной системы является Шаблон:Iw, через который можно просмотреть информацию по более чем 200 репозиториямШаблон:SfnШаблон:SfnШаблон:Sfn. Шаблон:Iw осуществляет поиск по содержанию почти 3000 перечисленных в открытом доступе репозиториев со всего мираШаблон:Sfn.

Одним из главных стандартов, регулирующих метаданные, является Дублинское ядро (Dublin Core, DCMES), основной набор который состоит из 15 характеристик[21]: Шаблон:Колонки

  • Title — название;
  • Creator — создатель;
  • Subject — тема;
  • Description — описание;
  • Publisher — издатель;
  • Contributor — внёсший вклад;
  • Date — дата;
  • Type — тип;
  • Format — формат документа;
  • Identifier — идентификатор;
  • Source — источник;
  • Language — язык;
  • Relation — отношения;
  • Coverage — покрытие;
  • Rights — авторские права.

Шаблон:Колонки Дублинское ядро является общим стандартом общим стандартом каталогизации объекта. Однако из-за общего характера DCMES может быть трудно описать сложные объекты коллекции. По этой причине в большинстве случаев Дублинское ядро комбинируют с другими стандартамиШаблон:Sfn.

Целостность и устойчивость

Шаблон:Main Целостность и устойчивость являются важнейшими характеристиками архивированных цифровых объектов. Под целостностью понимают сохранение точности и достоверности данных в течение их жизненного цикла. Она может быть нарушена при передаче или репликации данных. Сохранение целостности — одна из важнейших задач электронного архивирования[22][23]. Устойчивость подразумевает неизменность файла в процессе электронного архивирования и его сохранение в том виде, в каком он был создан[24].

Метаданные

Шаблон:Main Международный стандарт PREMIS определяет метаданные как «информацию, которую репозиторий использует для поддержки процесса цифрового сохранения». Метаданные — информация о данных, включающая например, описание формата файла, программного обеспечения, а также историю изменений. В идеале метаданные должны собираться и обновляться на протяжении всего жизненного цикла цифрового объектаШаблон:Sfn. Основная роль метаданных заключается в идентификации, описании и обеспечении интеллектуального доступа к содержимому цифровой коллекции. Различные типы метаданных необходимы для описания ресурсов, обнаружения, извлечения, использования, представления и сохранения цифровых объектов. Наиболее важны метаданные для систематизации коллекций с визуальными, звуковыми и анимационными материалами, которые трудно опознать без текстового описания. Выделяют несколько видов метаданныхШаблон:Sfn:

  • административные — предоставляют информацию, связанную с управлением и организацией информационных ресурсов;
  • описательные — предоставляют информацию о контенте информационных ресурсов;
  • данные об архивировании — содержат информацию о сохранении информационных ресурсов;
  • технические — иллюстрируют информацию, относящуюся к системным функциям и поведению метаданных.

Одним из главных стандартов, регулирующих метаданные, является Дублинское ядро (Dublin Core, DCMES), основной набор который состоит из 15 характеристик[21]: Шаблон:Колонки

  • Title — название;
  • Creator — создатель;
  • Subject — тема;
  • Description — описание;
  • Publisher — издатель;
  • Contributor — внёсший вклад;
  • Date — дата;
  • Type — тип;
  • Format — формат документа;
  • Identifier — идентификатор;
  • Source — источник;
  • Language — язык;
  • Relation — отношения;
  • Coverage — покрытие;
  • Rights — авторские права.

Шаблон:Колонки Дублинское ядро является общим стандартом каталогизации объекта. Однако из-за общего характера DCMES может быть трудно описать сложные объекты коллекции. По этой причине в большинстве случаев Дублинское ядро комбинируют с другими стандартамиШаблон:Sfn.

Другим основополагающим стандартом является VRA Core. В отличие от DCMES, VRA Core позволяет классифицировать произведения искусства (или оригинальные объекты) и их суррогаты (цифровые изображения) в разные категории. Это решение позволяет создавать более точное описание объектов и, например, обозначить дату создания обоих работ — оригинального произведения и его фотографииШаблон:Sfn.

Шаблон:Iw или PREMIS был разработан рабочей группой OCLC и RLG в 2005 году. Стандарт определяет единицы метаданных, необходимых для сохранения файлов в репозиториях. На 2021 год обслуживанием и спонсированием PREMIS занимается Библиотека Конгресса. Стандарт состоит из двух основных частей — модели данных и словаря. PREMIS определяет несколько типов метаданных, включая описательные, структурные, технические и административные. Словарь уделяет большое внимание документированию цифрового происхождения (истории объекта) и взаимосвязей, особенно между различными цифровыми объектами в репозиторияхШаблон:Sfn. Согласно стандарту PREMIS, репозитории должны автоматически регулировать метаданные для каждого отдельного электронного объект и сохранять историю изменений в файлеШаблон:Sfn[25].

Стандарты и основополагающие проекты

Основные принципы электронного архивирования данных были сформулированы в ряде стандартов и инициатив конца 1990-х — начала 2000-х годов.

Commission on Preservation and Access и Research Libraries Group

В 1994 году некоммерческая организация Commission on Preservation and Access (CPA) совместно с библиотечным консорциумом Шаблон:Iw инициировала специальную комиссию, деятельность которой была направлена на выявление практик по долгосрочному архивированию электронных документов и выработке соответствующих рекомендаций. Другой целью рабочей комиссии стала разработка альтернативных практик архивирования — вместо принятого на тот момент переноса данных в новые версии тех же носителей, сотрудники комиссии предложили использовать способ миграции и перемещать электронные объекты на новые жёсткие диски и программное обеспечение. В мае 1996 года группа из 21 члена под председательством Дональда Уотерса и Джона Гарретта выпустила финальный отчёт под названием Preserving Digital Information (дословно — «Сохраняя электронную информацию»). Отчёт содержал две главные рекомендации — вовлечение и обозначение создателей материалов в практики электронного архивирования и обозначение необходимости в создании сети надёжных и сертифицированных электронных архивовШаблон:Sfn. Данный документ стал основополагающим для последующих практических рекомендаций по темеШаблон:SfnШаблон:Sfn. В 1997 году по результатам кооперации CPA и RLG был создан Шаблон:Iw[26].

Для внедрения основных принципов отчёта в жизнь RLG реализовала несколько практических инициатив. Одной из них стал Studies in Scarlet — проект, осуществлённый совместно с библиотекой Юридического факультета Гарварда по сохранению дел из Америки, Великобритании и Ирландии с 1815 по 1914 год по домашнему насилию, двоежёнству, нарушению обещания вступить в брак, опеке и попечительству, изнасилованиям и убийствам[27]. Другим крупным проектом стал the Global Immigration Project, в рамках которого были оцифрованы дела по вопросам иммиграции. Оба проекта были посвящены оцифровке и сохранению данных, однако логика сохранения в обоих случаях отличалась. Так, архивация документов для проекта Studies in Scarlet происходила из потребности осуществить на практике основные принципы RLG по инфраструктуре репозиториев, а в случае the Global Immigration Project — из необходимости оцифровать и предоставить доступ к коллекциям по теме иммиграции, качество которых стремительно ухудшалось. Отличались и организационные модели проектов. Studies in Scarlet имел централизованную модель — все материалы были представлены вместе, а архив проекта по иммиграции состоял из ряда разобщённых коллекций, хранящихся в 11 участвующих учреждениях США, Великобритании и Канады. Одновременно с этим RLG запустила проект Arches, сосредоточенный на создании онлайн-хранилища цифровых ресурсов и программной среды для международного доступа к архивным материалам[28]. Arches представляет собой открытую программную платформу, разработанную совместно с Шаблон:Iw и World Monuments Fund для использования учреждениями, занимающимися сохранением культурного наследия по всему миру. Arches предоставляет информацию по археологическим памятникам, зданиям и сооружениям, культурным ландшафтам, городским ансамблямШаблон:SfnШаблон:Sfn.

Международный стандарт OAIS

Современные подходы и решения в области электронного архивирования основаны на понятиях и функциональных модулях, сформулированных в международном стандарте OAIS[29]. В 1990 году по запросу Международной организации по стандартизации (ISO), Международный Консультативный Комитет по космическим системам передачи данных начал разработку официальных стандартов для долгосрочного электронного архивирования информации, созданной во время космических миссий. В 1995 году была проведена серия международных семинаров, по результатам которой был выпущен стандарт Шаблон:Iw (OAIS) Reference Model. Первый вариант был опубликован в 1997 году, а финальный — в 2002 году (с обновлением в 2012-м). OAIS стала первой системой, описавшей понятие архивного пакета и цифровых объектов. Впоследствии стандарт стал прототипом для будущих проектов по созданию электронных репозиториев, доступу к существующим базам данных и метаданнымШаблон:Sfn. В 2003 году OAIS утвердили в качестве международного стандарта ISO 14721:2003 «Системы передачи данных и информации о космическом пространстве. Открытая архивная информационная система. Эталонная модель» (SPace data and information transfer systems — Open archival information system — Reference model (OAIS))Шаблон:Sfn. В стандарте был впервые представлен нейтральный словарь для описания ролей и обязанностей акторов по содержанию репозиториев и регулированию доступа пользователейШаблон:Sfn. Таким образом, стандарт OAIS определил и информировал разработку программы устойчивого цифрового сохранения через предоставление общего вокабуляра, информационной модели и высокоуровневой архитектуры цифрового сохраненияШаблон:Sfn. В основе OAIS лежит три основных концепции — «окружающая среда OAIS», «информация OAIS», «внешние взаимодействия OAIS». Первая категория состоит из «Производителей», «Потребителей» и «Менеджеров» в среде, окружающей архив OAIS. Производителями могут выступать как отдельные люди, предоставляющие данные для загрузки в систему, так и системы. Менеджерами являются те акторы, которые не участвуют в повседневной работе архива, но оказывают влияние на общую политику OAIS. Другие архивы OAIS, или не совместимые с OAIS системы, могут взаимодействовать с архивом OAIS как «производители» или «потребители»[30].

Согласно OAIS, информационный пакет архивированного объекта должен включать следующую информациюШаблон:SfnШаблон:Sfn:

  • о содержимом: объект данных и информация о его представлении;
  • о сохранении: происхождение материала, уникальные идентификаторы, другие аутентификационные данные;
  • об упаковке: компоненты информационного пакета;
  • описательная информация: метаданные об объекте, которые позволяют определить местонахождение материалов через поисковую систему.

Также в эталонной модели OAIS описаны три типа информационных пакетовШаблон:SfnШаблон:Sfn:

  • Сдаточный информационный пакет (Submission Information Package, SIP-пакет) — формат, при котором источник комплектования отправляет документы и метаданные в архив. Затем эти данные используются для формирования одного или нескольких архивных информационных пакетов.
  • Архивный информационный пакет (Archival Information Package, AIP-пакет) — формат, который используется для долговременного хранения информации в архивной системе. В состав пакета входит информация, необходимая для организации долговременного хранения документов.
  • Дистрибутивный информационный пакет (Dissemination Information Package, DIP-пакет) — в этом формате данные предоставляются пользователю в ответ на его запрос. DIP-пакет формируется на основе одного или нескольких АIP-пакетов.

Trusted Digital Repository

В 2000 году RLG и Online Computer Library Center (OCLC) начали сотрудничество по созданию Trusted Digital Repository (TDR или Надёжных электронных репозиториев) на основе международного стандарта OAIS. Отчёт по проекту был выпущен в августе 2001 года. Согласно документу, рабочая группа RLG и OCLC предлагает создание национальных и международных систем электронных репозиториев, которые будут отвечать за предоставление доступа к общественному, социальному, экономическому, культурному и интеллектуальному наследию. Согласно рекомендациям отчёта, деятельность RLG, OCLC и других организаций должна быть направлена на разработку сертификации электронных репозиториев, изучение и создание инструментов для выявления важных атрибутов цифровых материалов на сохранение; исследование и разработку моделей для совместных сетей и служб репозиториевШаблон:SfnШаблон:Sfn. Вместе с этим определением были даны основные характеристики TDR — административная ответственность, организационная жизнеспособность, финансовая стабильность, технологическая и процедурная совместимость, а также безопасность системыШаблон:Sfn.

«

Надёжный цифровой репозиторий — это тот, чья миссия — обеспечить надежный долгосрочный доступ к управляемым цифровым ресурсы для указанного сообщества сейчас и в будущемШаблон:Sfn.

»
— Анонимус

В 2003 году Research Library Group создала совместную рабочую группу с Национальным управлением архивов и документации США по разработке отдельных критериев по сертификации электронных репозиториев. В 2005 году RLG и Center for Research Libraries начали тестировать основные положения на практике, а спустя два года по результатам исследований выпустили документ Шаблон:Iw, лёгший в основу ISO Standard 16363 и определивший основные принципы по созданию и управлению хранилищами цифровых документовШаблон:Sfn.

Digital Preservation Network (DPN)

В 2012 году в США было создано сообщество Digital Preservation Network (DPN), куда вошло около 60 организаций, объединившихся для совместного использования технологий, экспертизы и финансовых ресурсов по созданию прозрачного и долгосрочного сервиса электронного архивирования. Членство в некоммерческой организации DPN было доступно только американским организациям, заинтересованным в долгосрочном хранении электронной информацииШаблон:Sfn. Когда они вступали в DPN, их включали в общую сеть хранения, действующую через пять основных репозиториев: Academic Preservation Trust (APTrust), Chronopolis, HathiTrust, Stanford Digital Repository (SDR) и University of Texas Digital Repository (UTDR). Каждый репозиторий считался «узлом» сети организаций DPN, располагался в разных частях США и имел собственную архитектуру, аппаратную платформу и организационную/финансовую структуру. Деятельность DPN была направлена на создание устойчивой системы хранения материалов[31]. В 2018 году DPN была расформирована[32].

InterPARES

Шаблон:Main

Шаблон:Iw — серия международных коллабораций, осуществляемых начиная с 1994 года под названием UBC Project. Проект был инициирован Университетом Британской Колумбии совместно с Министерством обороны США и Национальным управлением архивов и документации США в 1994—1997 годах. Главной его целью являлась разработка методологии электронного архивирования, которая позволит сохранять материалы в аутентичном виде в течение долгого времениШаблон:Sfn. В 1999 году на основе UBC Project был создан InterPARES, который возглавили исследователи Шаблон:Iw и Шаблон:Iw. Первая стадия проекта (1999—2001 год) была посвящена долгосрочному сохранению записей, созданных и поддерживаемых в базах данных и системах управления документами. На второй стадии проекта (2002—2007 год) исследователи анализировали записи, созданные в ходе научной, художественной и правительственной деятельности. На третьем этапе проекта (2007—2012 год) полученные практические знания тестировали в малых и средних архивных учреждениях. Последний этап (2013—2018 год) посвящался электронным записям, загруженным в интернет самими пользователямиШаблон:Sfn[33]. По итогам проекта был создан DOD стандарт 5015.2 для системы сохранения записейШаблон:SfnШаблон:Sfn.

PRONOM

В 2002 году Департамент цифрового сохранения (Digital Preservation Department) Шаблон:Iw создал Шаблон:Iw — технический реестр, содержащий информацию о форматах файлов, программном обеспечении и технических компонентах репозиториев. Реестр постоянно обновляется, заявки могут подать в том числе и исследователи, работающие с редкими и проприетарными форматами файлов. Изначально PRONOM считался внутренним ресурсом Национального архива Великобритании, однако впоследствии его переиначили в открытый международный порталШаблон:Sfn[34].

Preserving Access to Digital Information (PADI)

С 1996-го по 2010 год Национальная библиотека Австралии реализовывала проект Preserving Access to Digital Information (PADI), целью которого стало продвижение стратегий и руководств по архивированию и получению доступа к электронным объектам всех институтов культурного наследия в Австралии. По итогам проекта был создан общий тематический портал, через который институты могли свободно обмениваться информацией, а также получать доступ к необходимым электронным ресурсамШаблон:Sfn.

National Digital Information Infrastructure and Preservation Program (NDIIPP)

Шаблон:Main

В декабре 2000 года Конгресс США выделил $100 млн на создание Шаблон:Iw (NDIIPP), осуществление которой было передано Библиотеке Конгресса. Деньги выделялись на национальные усилия по планированию долгосрочного архивирования электронной документации и сотрудничество с представителями других федеральных, исследовательских, библиотечных и деловых организаций[35].

Московская декларация о сохранении цифровой информации

В октябре 2011 года в рамках международной конференции «Сохранение электронной информации в информационном обществе: проблемы и перспективы» в Москве была принята декларация о сохранении цифровой информации, впоследствии ставшая одним из основополагающих документов в сфере электронного архивирования[36]. Декларация обозначила приоритетные области по сохранению цифровой информации и выпустила ряд предложений для ЮНЕСКО, национальных государств и правительственных структур по внедрению практик по оцифровке документов[37].

Методы

Технические стратегии

Консервация

Шаблон:Main

Метод консервации цифровых данных заключается в работе с материалами в оригинальных форматах и на оригинальных носителях, благодаря использованию исходной технологии или ранее применявшихся аппаратно-программных средств. В таком случае создаются так называемые «компьютерные музеи», где поддерживается визуализация и содержание материалов в первозданном формате и с оригинальным функционалом. Консервацию относят к временной стратегии электронного архивирования, несмотря на то, что для некоторых цифровых данных способ — лучшее решение из-за его способности сохранять изначальные инструменты доступа, такие как программное обеспечение[29]Шаблон:SfnШаблон:Sfn. В долгосрочной перспективе стратегия является проблематичной из-за потенциальных проблем с техническим обслуживанием и затратами на поддержание доступности определённых типов файлов. Консервация также ограничивает переносимость ресурса, которая в этом случае напрямую зависит от оборудования, хранящегося в определённых местахШаблон:Sfn.

Эмуляция

Файл:Java virtual machine architecture.svg
Схема архитектуры Java Virtual Machine, 2011 год

Под эмуляцией понимают воспроизведение функциональности системы для обеспечения работы с устаревшими форматами данных. Эмуляция подразумевает создание на компьютере виртуальной машины, позволяющей воспроизводить функциональность исходной аппаратно-программной среды[29]. По некоторым свойствам эмуляция схожа со стратегией консервации, поскольку предполагает сохранение исходной прикладной программы. Цель эмуляции — сохранить внешний вид цифрового объекта, а также его функциональность через копирование технического содержания ресурса и использование исходного объекта или обновлённой копии исходного объекта в будущемШаблон:Sfn. Программное обеспечение для эмуляции разрабатывалось энтузиастами для компьютерных игр с начала 1990-х годов, но с начала 2000-х годов оно также вызывало интерес в сообществе специалистов по сохранению цифровых данных. Несмотря на то, что изначально эмуляция рассматривалась как технологически сложная система, к тому же трудная для воспроизводства, постепенно метод стал одним из основных в сфере электронного архивирования — новые разработки, включая внедрения эмулятора прямо в плагин браузера, значительно упростили использование. Эмулятор запрограммирован на имитацию поведения старых аппаратных платформ и программного обеспечения операционной системы, например, игр и файлов. Однако эта стратегия не предполагает сохранение устаревшего оборудования и оригинального программного обеспечения. Примером может служить Java Virtual MachineШаблон:Sfn[38]. Эмуляцию применяют как в отношении приложений и операционных систем, так и к аппаратным платформамШаблон:Sfn.

Использование эмуляции для доступа к форматам файлов и устаревшему программному обеспечению даёт ряд преимуществ. К ним относят возможность получить доступ к сложным цифровым объектам, в том числе к играм, виртуальной реальности и приложениям. Позволяя пользователям взаимодействовать с цифровыми объектами в их исходной среде, эмуляция предоставляет исследователям ценный контекст об окружающей среде, в которой в то время работал создатель. При масштабном использовании он может обеспечить доступ к большим частям коллекции[38]. Однако использование эмуляции осложнено потенциальными юридическими проблемами — условия лицензирования устаревшего программного обеспечения и операционных систем не всегда разрешают эмуляцию, поскольку этот метод подразумевает копирование. Выбор эмуляции как стратегии электронного архивирования также может привести к зависимости от морального устаревания эмуляторов и со временем предполагает ограничения из-за потери мощности оборудованияШаблон:Sfn.

Инкапсуляция

Метод инкапсуляции подразумевает включение технического описания документа в состав самого цифрового объекта, таким образом уменьшая его зависимость от внешней среды, так как данная информация позволяет либо воспроизвести исходную среду, либо перенести документ в новую[29][39]. В большинстве используемых методов хранения информации различные компоненты электронных данных хранятся в разных местах (например, в базе данных или файловой системе) в составе разных цифровых объектов. Взаимоотношения между разными компонентами осуществляются через ссылки, указатели и имена файлов. Однако быстрое развитие информационных технологий требует, чтобы отношения между цифровыми объектами были более стабильными — хранение компонентов электронной записи по отдельности всегда сопряжено с риском, и как только взаимоотношения нарушены и не подлежат восстановлению, запись считается утерянной. Архивист может избежать этого риска, включив метаданные в компьютерные файлы, содержащие документы. При объединении двух компонентов в одном физическом объекте, связь между записью и метаданными не может быть потерянаШаблон:Sfn. Инкапсуляция может применяться по отношению к цифровым ресурсам, формат которых точно установлен и широко применяетсяШаблон:Sfn. Также данная стратегия позволяет преодолевать проблему технологического устаревания форматов файлов, поскольку метаданные включают способ создания исходного приложения для осуществления доступа к нему на более совершенных компьютерных платформах[40]Шаблон:Sfn.

Международный стандарт OAIS также описывает типы вспомогательной информации, которая должна быть включена в инкапсулированный файл — о происхождении (для описания источника объекта), контексте (для описания того, как объект соотносится с другой информацией за пределами «контейнера»), ссылку на один или несколько идентификаторов (для уникальной идентификации объекта)Шаблон:Sfn.

Миграция

Метод миграции заключается в переносе электронных документов на другие носители или же в другую операционную систему — например, с магнитной ленты на компакт-диск. Эта стратегия является одной из самых популярных практик в сфере электронного архивирования, поскольку позволяет сохранить целостность цифрового материала и способность пользователей находить и использовать информацию и не зависить от устаревания технологийШаблон:SfnШаблон:SfnШаблон:Sfn.

Международный стандарт OAIS выделяет четыре основных вида миграции: обновление, тиражирование, переупаковку и преобразование. Обновление гарантирует, что надёжная копия битового потока сохраняется, в то время как репликация и переупаковка гарантируют доступность управляемого пакета объектаШаблон:Sfn. Данная стратегия направлена на сохранение содержания переносимого объекта, в то время как отдельные технологические свойства могут быть утеряныШаблон:Sfn[41][42].

Цифровая археология

Шаблон:Main

Цифровая археология — дорогостоящий метод архивирования материалов, который состоит в спасении тех цифровых объектов, которые стали недоступными из-за технологического устаревания и/или физической деградации. Ввиду высокой стоимости и отсутствию гарантий на восстановление всей полноты данных использование подобной стратегии считается вынужденной меройШаблон:Sfn[29].

Обновление

Стратегия обновления подразумевает перенос информации с одного долговременного носителя на другой — например, с распадающейся 4-х мм DAT-ленты на новую 4-мм DAT-ленту, или со старого CD-RW на новый CD-RW. Обновление является необходимым компонентом любой успешной программы электронного архивирование, но само по себе не является отдельной стратегией. Метод решает проблему износа и устаревания носителя, но не считается устойчивым долговременным способом архивированияШаблон:Sfn[43]Шаблон:Sfn.

Архивирование веб-сайтов

Шаблон:Main

Веб-архивирование — процесс сбора, сохранения и извлечения сайтов и материалов из интернета с целью их размещения в электронном архиве для предоставления доступа следующим поколениям. Эта стратегия направлена на преодоление проблемы потери информации в интернете из-за динамики развития сети и изменений в условиях лицензирования. Одной из самых крупных и знаменитых инициатив по веб-архивированию стала созданная в 1996 году некоммерческая организация «Архив Интернета». Коллекция Архива состоит из множества подколлекций архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения. В 2001 году Архивом был запущен сервис Wayback Machine, занимающийся сохранением бо́льшей части «открытого» интернета. Пользователи Wayback Machine могут отследить происходящие на выбранных сайтах изменения и сравнивать разные версии правок. На август 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённых веб-страниц[44]Шаблон:SfnШаблон:SfnШаблон:Sfn.

Организации могут использовать программы по выборочному веб-архивированию. К крупнейшим из подобных сервисов относят систему PANDAS (PANDORA Digital Archiving System), впервые внедрённую Австралийской национальной библиотекой. PANDAS — это веб-приложение, написанное на Java и Perl, предоставляющее интерфейс для управления процессом веб-архивирования. Аналогичную роль выполняет The Web Creator Tool — инструмент рабочего процесса с открытым исходным кодом для управления процессом выборочного веб-архивирования, разработанный совместно Национальной библиотекой Новой Зеландии и Британской библиотекой с Oakleigh Consulting[45].

Достоинства и недостатки методов электронного архивирования

Достоинства и недостатки методов электронного архивирования
Стратегия Достоинства Недостатки Применение
Консервация Сохраняет внешний вид. Позволяет работать с оригинальными форматами и программными обеспечениями. Высокая стоимость поддержания работы файла. Сохранность зависит от оборудования. Файлы с устаревшими форматами, программное обеспечение, ресурсы, внешний вид которых имеет значение.
Эмуляция Сохраняет внешний вид. Сложность создания эмулятора. Большой объем информации, которую необходимо сохранить. Для доступа к информации требуется архаичное программное обеспечение. Программное обеспечение; сложные цифровые ресурсы (например, содержащие исполняемые файлы); ресурсы, ценность которых неизвестна и использование которых в будущем маловероятно; ресурсы, внешний вид которых имеет значение.
Инкапсуляция Сохраняет информацию о файле и способах его воспроизведения. Сохраняются знания о файле и системе его воспроизведения. Малодоступные ресурсы и ресурсы с известными форматами.
Миграция Не требует сохранения оригинальных приложений. Поддерживает активный доступ и управление. Высокая стоимость для длительной сохранности. Отсутствие возможности сохранения метаданных. Необходимость постоянного обновления и работы со стороны архивистов. Ресурсы, к которым активно осуществляется доступ и которыми управляют, например, научные данные или базы данных. Ресурсы с широко применяемыми форматами.
Цифровая археология Позволяет реконструировать электронные объекты, доступ к которым был потерян. Высокая стоимость и отсутствие гарантий на восстановление файлов. Файлы, доступ к которым был потерян.
Обновление Решает проблему износа и устаревания носителя. Метод эффективен только в качестве кратковременного решения. Ресурсы, носители которых находятся под риском устаревания.
Веб-архивирование Решает проблему потери информации в интернете из-за динамики развития сети и изменений в условиях лицензирования. Потенциальные юридические сложности, связанные с законом об авторском праве. Все файлы и сайты, находящиеся в интернете и признанные сохраняющим актором как достойные архивирования.

Структурные стратегии

Для эффективного внедрения практик электронного архивирования организациям рекомендуют внедрять и структурные изменения. Так, чтобы сократить негативный эффект технологического устаревания на цифровые носители, необходимо принимать и соблюдать международные стандарты, регулирующие вопросы, связанные с принятием программного обеспечения и снижения зависимости от обновлений разработчиков ПО. Открытые стандарты для цифрового хранения и архивирования устанавливаются официальными органами по стандартизации и международными консорциумами, включая National Digital Stewardship Alliance (NDSA), Консорциумом Всемирной паутины (W3C), Международной организацией по стандартизации и Шаблон:Iw (IIPC). NDSA был основан в 2010 году и представляет собой консорциум организаций, нацеленных на долгосрочное хранение цифровой информации. Консорциум Всемирной паутины действует с 1994 года и является международным сообществом, организации-члены которого работают над разработкой веб-стандартов. В основанной в 2003 году в Национальной библиотеке Франции IIPC принимают участие несколько организаций, включая Национальную библиотеку Чили и Библиотеку Конгресса, разрабатывающие стандарты и инструменты для веб-архивированияШаблон:Sfn.

Сохранение цифровых материалов требует значительных инвестиций в технологическую инфраструктуру, которая позволит поддерживать деятельность по архивированию цифровых данных. Для обеспечения долгосрочного сохранения информации необходимо правильно подбирать используемые носители данных, которые позволят обеспечивать доступ к информации на длительный срок. Так, например, начиная с 2000-х годов использование магнитных и оптических носителей не считается оправданным. Критерии отбора носителей должны включать анализ по таким вопросам как скорость морального устаревания, стандартизацию, стоимость. С 2010-х годов популярностью пользуются устойчивые локальные или облачные системы храненияШаблон:Sfn.

Для успешного и долгосрочного внедрения практик электронного архивирования необходимо улучшение сотрудничества между организациями, командами профессионалов и создателями цифровых объектов. Для этого существуют международные консорциумы, тематические сети организаций и открытые программные обеспечения — например, Open Journal Systems и DSpaceШаблон:Sfn.

Архивирование электронных писем

С точки зрения сохранения цифровых материалов каждое электронное письмо, состоящее из заголовка, тела сообщения и вложений, представляет собой сложный коммуникационный пакет, содержащий уникальный исходный материал, зачастую имеющий потенциальную историческую, юридическую и административную ценностьШаблон:Sfn. Обмен электронными письмами составляет существенную часть интернет-трафика, однако относительно редко становится частью программ по электронному архивированию. Например, Библиотека Конгресса США собирает архив публичных твитов по всему миру, UK Web Archive, Архив Интернета и Шаблон:Iw занимались сохранением веб-страниц и сбором информации с сайтов; однако ни один из проектов не занимается сбором передаваемой через электронную почту информацииШаблон:Sfn. Главными причинами этого являются потенциальная конфиденциальность писем, различие в форматах почтовых клиентов и отсутствие стандартизированного формата для хранения сообщенийШаблон:Sfn[46]Шаблон:Sfn.

Существует ряд проектов по архивации электронных писем:

  • Carcanet Press Email Preservation Project

Начиная с 2012 года в архиве Шаблон:Iw, принадлежащему Библиотеке Манчестерского университета, начали сохранять электронную переписку со знаменитыми поэтами, критиками, редакторами, переводчиками и художниками. В проекте Carcanet Press Email Preservation Project использовались как традиционные методы архивирования, так и новые стандарты сохранения цифрового материала:

  • программный код для извлечения метаданных и автоматической проверки экспериментов по миграции;
  • полный профиль метаданных и модель данных для архивных информационных пакетов;
  • новая кураторская документация;
  • специализированное оборудование для хранения цифровых данных и безопасная сеть накопитель для первичной обработки цифровых архивовШаблон:Sfn.
  • CERP (Collaborative Electronic Records Project)
  • DAVID (Digital Archiving in Flemish Institutions and Administrations)

С 1999 по 2003 год в результате сотрудничества между Городским архивом Антверпена и Междисциплинарным центром права и информатики Лёвенского католического университета действовал проект DAVID. Целью этого проекта являлось создание руководства по электронному архивированию. Сотрудники изучили судебные и архивные требования по архивации электронной почты и указали на некоторые возможные стратегии архивирования. Помимо своей теоретической ценности, отчёт был важен тем, что после него началось внедрение практик по управлению записями и ведению учёта электронных писем и связанных с ними электронных документовШаблон:Sfn.

  • Collaborative Electronic Records Project

Архивы Смитсоновского института были среди первых организаций, начавших разрабатывать практики по сохранению электронных писем. В своих коллекциях Архив хранит записи электронной почты, относящиеся к 1980-м годам и созданные с помощью ELM. С тех пор Смитсоновский институт использовал различные приложения и форматы электронной почты, включая PINE, Шаблон:Iw, Lotus Notes, GroupWise и другие приложения. Сотрудникам Смитсоновского института было приказано распечатать электронную почту для ведения документации, как это было принято в то время в других организациях и предприятиях. Поскольку в то время практически не было организаций, которые работали бы в сфере сохранения данных электронной почты, в 2005 году был создан специализированный проект совместно с Шаблон:Iw — Collaborative Electronic Records Project (CERP). Проект продлился три года, по его результатам были созданы стандарты и разработаны практики по архивированию электронных сообщений[47]Шаблон:Sfn.

  • EAS

С начала 2008 года при Гарвардском университете действовала рабочая группа, занимающаяся определением стратегий по сохранению электронных сообщений. В 2015 году на её основе был запущен EAS — партнёрский проект между Библиотечным офисом Гарвардского университета по информационным системам (OIS) и рядом кураторских организаций из библиотечных подразделений Гарварда[48]. EAS сотрудничает с системой Wordshack по автоматизации процесса сохранения данных. Так, сообщения электронной почты и вложения, выбранные для долгосрочного хранения, автоматически отправляются в DRS — службу электронного репозитория Гарвардского университета[48].

  • Xml Electronic Normalising for Archives (XENA)

XENA — бесплатное программное обеспечение с открытым исходным кодом, разработанное Национальным архивом Австралии для долгосрочного хранения электронных документов. Основная функция XENA — определение формата файла цифровых записей и преобразование его в соответствующий формат для сохранения, основанного на открытых стандартах. Программное обеспечение Xena способствует сохранению цифровых данных, выполняя две важные задачи: определение форматов файлов цифровых объектов и преобразование их в открытые форматы для сохранения[49].

Архивирование игр

Шаблон:Main Сохранение видеоигр осуществляется через архивирование разработок исходного кода, цифровых копий видеоигр, эмуляцию игровой приставки, обслуживание и сохранение специализированного оборудования для видеоигр, а также оцифровку печатных журналов и книг по видеоиграм, изданным до цифровой революции. Сохранение видеоигр позволяет не только исследовать историю индустрии, но и анализировать технические и творческие аспекты производства той или иной игры[50].

Используемые для создания игр технологии значительно изменились с начала 1990-х годов, и во многих случаях оригинальные игры того времени не могут быть воспроизведены из-за проблемы устаревания форматов[51]. При этом игры, как правило, выпускались под конкретную консоль, что значительно осложняло их последующую сохранность[52]. Поэтому в этот период стали появляться инициативы по сохранению наследия видеоигр. Были созданы игровые музеи, такие как Шаблон:Iw в Нью-Йорке[53], Шаблон:Iw в Окленде[54], Берлинский музей компьютерных игр[55], Музей советских игровых автоматов в Москве и Санкт-Петербурге[56]. Также был основан Фонд истории видеоигр в США, занимающийся сохранением не только игр, но и журналов, руководств и рекламных материалов по теме. Среди других крупных инициатив — сервис цифрового распространения GOG.com и коллекция браузерных эмуляторов аркад в Архиве Интернета[52]. Начиная с 2015 года Организация Объединённых Наций поддерживает проект Open Digital Library on Traditional Games, направленный на электронное архивирование и защиту традиционных игр коренных народов через каталогизирование и построение общей базы данных, на основе которой впоследствии будут создавать видеоигры[57][58].

Архивирование научных работ

Шаблон:Main Начиная с середины 1990-х годов в научном мире стало развиваться движение за открытую науку — всё больше исследователей выступали против пейволлов и излишне высокой стоимости доступа к академической литературе на фоне сокращения финансирования библиотек. Одним из требований сторонников движения стало открытие доступа к научным публикациям, преимущественно — через публикацию в интернетеШаблон:SfnШаблон:Sfn. Вскоре появились первые онлайн-репозитории и электронные библиотеки. В их число вошли такие крупные проекты, как arXiv.org, JSTOR, Public Library of Science (PLoS), Шаблон:IwШаблон:Sfn. По состоянию на август 2021 года Шаблон:Iw насчитывает более 15 900 журналов открытого доступа и более 5 млн статей[59]. При этом логика архивирования научных публикаций в каждом из проектов может сильно отличаться. Например, цифровая база данных JSTOR была создана в 1995 году для сохранения цифровых копий печатных журналов. В базу попадают только те научные журналы, публикация в которых осуществляется через систему рецензирования. Также значение имеет количество организаций, которые выписывают данный журнал и индекс цитирования. Архивирование происходит по принципу «движимой стены» (Moving Wall) — выпуски размещаются в системе с момента создания издания и до 3-5 лет до настоящего времени. Размещаемые в JSTOR материалы не всегда находятся в открытом доступе и могут быть спрятаны за пейволлами. Доступ к таким материалам осуществляется через систему институциональных подписок[60][61][62]. Созданный Национальной библиотекой медицины США архив биомедицинской литературы PubMed Central был запущен в феврале 2000 года. Доступ к материалам, размещённым на сайте, свободный и неограниченный[63]. В свою очередь, на запущенном в 1991 году портале arXiv.org исследователи самостоятельно размещают препринты или свободно распространяемые копии своих опубликованных работ по физике, математике, астрономии, информатике и другим точным наукам. Перед публикацией статьи не рецензируются, однако проходят первичную проверку модераторовШаблон:Sfn.

С появлением электронных библиотек возникла и проблема долгосрочного хранения цифровых коллекций научной литературы — обеспечение доступности ресурсов для будущих поколений требует специальных усилий и постоянных инвестицийШаблон:SfnШаблон:Sfn. Материалы открытого доступа, как правило, не нарушают авторские и имущественные права — для их сохранения библиотекам не требуется специальных разрешений. Для долгосрочного сохранения литературы в открытом доступе организациям рекомендуют следовать открытым международным стандартам и внедрять открытые форматы, включая odt и xmlШаблон:Sfn.

Проблемы

Одной из самых главных проблем электронного архивирования считается устаревание технологий — из-за быстрого изменения и развития оборудования и программных форматов возможна потеря доступа к электронным репозиториямШаблон:Sfn. В среднем носители информации морально устаревают раз в десятилетие, а на смену им приходят новые, более эффективные способы хранения данных и, соответственно, новые аппаратно-программные средства. В это же время выпуск средств для работы с устаревшими носителями прекращается. Помимо этого, носители информации подвержены ошибкам и сбоям, вирусным атакам, а также физической деградации[29]. Для электронной архивации организациям рекомендовано использовать незапатентованные устойчивые форматы, которые не зависят от стороннего программного обеспечения[64][65].

Отсутствие единого законодательства, политики, стратегий и осведомлённости в сфере электронного архивирования также усложняет практики сохранения информации. Так, законодатели могут быть не осведомлены о требованиях к электронному архивированию, в результате чего законодательство может игнорировать, либо не полностью регулировать сохранение цифровых данных. Это создаёт дополнительные проблемы с точки зрения авторского праваШаблон:Sfn. Права интеллектуальной собственности и другие юридические обязательства могут мешать копированию, хранению, изменению и использованию содержимого цифровых ресурсов для долгосрочного храненияШаблон:Sfn. Вопрос с авторским правом и правом интеллектуальной собственности для цифровых материалов гораздо сложнее, чем для традиционных физических материалов. В сфере традиционного архивирования вместе с материальной копией библиотека или архив автоматически приобретали право на копирование и сохранениеШаблон:Sfn. Однако для большинства методов электронного архивирования необходимо наличие и осуществление исключительных прав на работу, включая право на воспроизведениеШаблон:Sfn. Более того, издательства могут запрещать копирование публикаций с помощью технических средств — что разрешено и закреплено в законодательстве об авторском праве, как на территории США, так и на территории Европейского союза. Также у отдельных материалов может быть несколько правообладателей (включая других издателей, авторов, художников, производителей стороннего программного обеспечения), из-за чего издателям может быть сложно предоставить библиотекам и другим акторам права на сохранение материалов. При этом если «внешний вид» или функциональность публикации изменится в результате копирования, авторы и создатели могут почувствовать, что их права были нарушены, может быть трудно доказать, что сохраняемые копии публикаций являются просто копиями, а не полностью новыми версиямиШаблон:Sfn. Среди возможных решений этой проблемы исследователи называют потенциальное внедрение лицензионных соглашений, в которых отдельно прописываются условия о сохраненииШаблон:Sfn.

Также к трудностям относят человеческий фактор, компьютерные вирусы, природные катастрофы, сбои в работе носителей и программном обеспеченииШаблон:SfnШаблон:Sfn.

Примеры инициатив

Файл:Dunhuang manuscript digitisation.jpg
Оцифровка рукописи из Дуньхуана. Великобритания, 2006 год
Файл:Wayback Machine logo 2010.svg
Логотип Wayback Machine, 2010 год
  • Шаблон:Iw (Британская коалиция по электронному сохранению) — основанная в 2001 году некоммерческая организация, деятельность которой направлена на сохранение электронных ресурсов[66].
  • Шаблон:Iw — международный коллаборативный проект по каталогизации и оцифровке рукописей, печатных текстов, картин, тканей и артефактов из пещер Могао в западно-китайском городе Дуньхуан и других археологических памятников в восточной части Шёлкового пути. Проект был инициирован Британской библиотекой в 2004 году[67][68].
  • Шаблон:Iw — это международная сеть для хранения цифровых данных, состоящая из библиотек, архивов и других учреждений, занимающихся культурным наследием. По состоянию на август 2011 года сеть хранения MetaArchive состоит из 24 защищённых серверов в четырёх странах с общей ёмкостью более 300 ТБ[69]Шаблон:Sfn.
  • Шаблон:Iw — архивная программа США, выполняемая под руководством Библиотеки Конгресса. Программа была утверждена Конгрессом США в 2000 году, её завершение состоялось в 2018-м. В рамках проекта было реализовано несколько рабочих групп, управляла грантовыми проектами и распространяла информацию о проблемах сохранения цифровых данных[70].
  • PubMed Central — архив полнотекстовых биомедицинских публикаций со свободным доступом, созданный Национальной библиотекой медицины США. На август 2021 года в архиве хранится более 6 млн работ[71].
  • The New York Times Web Archive — проект The New York Times по сохранению онлайн-контента. На сайте размещена копия HTML-страниц страниц NYTimes.com с момента их первой публикации, с сохранением их дизайна и оригинальной презентации для потомков[72].
  • Шаблон:Iw — проект, который стремится сделать веб-архивный контент более доступным. Вместо того, чтобы ожидать, что люди узнают о растущем количестве веб-архивов и будут угадывать, какой архив может содержать более старую версию ресурса, который они ищут, Memento предлагает сделать архивный контент доступным для поиска по исходному URL-адресу. Memento — попытка разрешить пользователям просматривать любую веб-страницу так, как она выглядела в заданную дату в прошлом. Проект осуществляется Шаблон:Iw и Лос-Аламосской национальной лабораторией[73].
  • В 2010 году Библиотека Конгресса США подписала соглашение с «Твиттером» по архивированию публичных твитов, опубликованных с момента создания платформы в 2006 году, и о продолжении сохранения твитов, чтобы эти данные были доступны для анализа и исследований[74].
  • Арктический мировой архив — объект, созданный в 2017 году с целью сохранения данных, расположенный на архипелаге Шпицберген (Норвегия). Архив содержит данные из нескольких стран, представляющие исторический и культурный интерес, а также весь открытый исходный код американской транснациональной компании GitHub.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки

  1. Шаблон:Cite web
  2. Шаблон:Cite web
  3. Шаблон:Cite web
  4. Шаблон:Cite web
  5. Шаблон:Cite web
  6. Шаблон:Cite web
  7. Шаблон:Cite web
  8. Шаблон:Cite web
  9. Шаблон:Cite web
  10. Шаблон:Cite web
  11. Шаблон:Cite web
  12. Шаблон:Cite web
  13. Шаблон:Cite web
  14. Шаблон:Cite web
  15. Шаблон:Cite web
  16. 16,0 16,1 Шаблон:Cite web
  17. 17,0 17,1 Шаблон:Cite web
  18. Шаблон:Cite web
  19. Шаблон:Cite web
  20. Шаблон:Cite web
  21. 21,0 21,1 Шаблон:Cite web
  22. Шаблон:Cite web
  23. Шаблон:Cite web
  24. Шаблон:Cite web
  25. Шаблон:Cite web
  26. Шаблон:Cite web
  27. Шаблон:Cite web
  28. Шаблон:Cite web
  29. 29,0 29,1 29,2 29,3 29,4 29,5 Шаблон:Cite web
  30. Шаблон:Cite web
  31. Шаблон:Cite web
  32. Шаблон:Cite web
  33. Шаблон:Cite web
  34. Шаблон:Cite web
  35. Шаблон:Cite web
  36. Шаблон:Cite web
  37. Шаблон:Cite web
  38. 38,0 38,1 Шаблон:Cite web
  39. Шаблон:Cite web
  40. Шаблон:Cite web
  41. Шаблон:Cite web
  42. Шаблон:Cite web
  43. Шаблон:Cite web
  44. Шаблон:Cite web
  45. Шаблон:Cite web
  46. Шаблон:Cite web
  47. Шаблон:Cite web
  48. 48,0 48,1 Шаблон:Cite web
  49. Шаблон:Cite web
  50. Шаблон:Cite web
  51. Шаблон:Cite web
  52. 52,0 52,1 Шаблон:Cite web
  53. Шаблон:Cite web
  54. Шаблон:Cite web
  55. Шаблон:Cite web
  56. Шаблон:Cite web
  57. Шаблон:Cite web
  58. Шаблон:Cite web
  59. Шаблон:Cite web
  60. Шаблон:Cite web
  61. Шаблон:Cite web
  62. Шаблон:Cite web
  63. Шаблон:Cite web
  64. Шаблон:Cite web
  65. Шаблон:Cite web
  66. Шаблон:Cite web
  67. Шаблон:Cite web
  68. Шаблон:Cite web
  69. Шаблон:Cite web
  70. Шаблон:Cite web
  71. Шаблон:Cite web
  72. Шаблон:Cite web
  73. Шаблон:Cite web
  74. Шаблон:Cite web