Русская Википедия:Цифровой тёмный век

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Цифрово́й тёмный век — понятие, описывающее потенциальное исчезновение исторических данных в информационную эру из-за потери доступа к электронным документам. К этому сценарию могут привести отсутствие практик электронного архивирования, устаревание форматов файлов и носителей информации. Понятие «цифровой тёмный век» является отсылкой к термину «Тёмные века», часто используемому для описания Средневековья.

Проблему начали обсуждать уже в конце 1990-х годов, когда сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных. Со временем был утерян доступ и к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски. Для обозначения исчезновения информации в 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений было предложено использовать термин «цифровой тёмный век».

Для предотвращения наступления «тёмного века» исследователи предлагают развивать практики электронного архивирования и создавать бумажные копии цифровых данных.

Характеристика

Традиционно архивированием и сохранением информации занимались монахи и монастыри. Их работа обеспечила сохранность информации о наследии греческих, римских и арабских культур. С распространением книгопечатания в XV веке[1] эти обязанности постепенно перешли к библиотекарям и архивариусам частных и публичных библиотекШаблон:Sfn, отслеживающих информацию об имущественных правах, налоговых документах, импорте и экспорте. Вплоть до начала информационной эры в конце XX столетия подавляющее большинство материалов хранилось на бумажных носителях. Несмотря на существующую опасность пожелтения страниц и потенциальную уязвимость перед огнём, водой и разрушением из-за времени, такие документы были универсально доступны[2]Шаблон:Sfn.

С наступлением «информационной эры» обмен данными стал преимущественно цифровымШаблон:Sfn. Поэтому всё больше исследователей стали задаваться вопросом, что произойдёт в случае полного перехода на электронный формат при одновременном отсутствии физических копий, вроде печатных документов и фотографий. По их мнению, существует риск, что многие данные будут однажды утеряны и будущие поколения не смогут получить к ним доступШаблон:Sfn.

Уже к концу 1990-х годов стали очевидны недостатки архивирования электронных документов. Так, сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных[3]. Со временем был утерян доступ к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски[4][5].

В 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений исследователи впервые предложили использовать термин Digital Dark Age или «цифровой тёмный век» для описания этой проблемы. Словосочетание «тёмный век» является отсылкой к эпохе средних веков — периоду, который характеризовался практически полным отсутствием письменных свидетельствШаблон:SfnШаблон:Sfn. Другие эксперты называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные в наше время данные[6]. В 2015 году американский учёный и вице-президент Google Винтон Серф выступил с заявлением, что человечество движется к «цифровому тёмному веку». В своём выступлении в Шаблон:Iw он выразил обеспокоенность общим состоянием сохранения электронных материалов и выступил за разработку практик архивирования электронной информации в соответствии с законодательством об авторском праве[7][8][9][10].

Причины

С архивированием цифровых данных в XXI веке связаны две основные проблемы. Первая — это необходимость сохранения физического носителя в рабочем состоянии. Политические кризисы, а также природные катастрофы, вроде наводнений и землетрясений, могут помешать обслуживанию оборудования и поддержанию его в рабочем состоянииШаблон:Sfn.

Вторая причина связана с устареванием форматов — многие из них в будущем могут оказаться нечитаемыми. Это связано с развитием программного обеспечения, появлением новых форматов файлов и окончанием поддержки старыхШаблон:Sfn[11].

Примеры

Файл:VCF 2010 Domesday tray open.jpg
Компьютерный терминал с лазерным диском, содержащим информацию из проекта BBC «Судный день» 1986 года

В 1986 году BBC запустил проект BBC Domesday Project (или «Судный день») в честь 900-летия Книги Страшного суда — свода материалов, созданных в 1086 году по приказу Вильгельма Завоевателя. Король заказал подробное исследование земельных владений своего королевства и объединил полученные данные в пятитомное издание, в настоящее время хранящееся в Шаблон:Iw. В проекте BBC приняло участие более миллиона человек, включая детей примерно из 9000 школ по всей Великобритании, которых попросили задокументировать их родные города. Собранная с помощью краудсорсинга информация была объединена с профессиональными фотографиями, картами, видео-турами по историческим местам и всей переписью населения 1981 года. Впоследствии все данные были загружены на несколько лазерных дисков. Однако к началу 2000-х годов оказалось, что почти все физические носители проекта Domesday были сломаны или утеряны, а данные — безвозвратно потеряны[4].

Другим примером является программа НАСА Lunar Or, в рамках которой были сделаны подробные фотографии лунной поверхности. Все изображения были записаны на магнитные ленты, которые могли быть прочитаны только с помощью редкой модели LTOШаблон:Sfn. По этой причине доступ к материалам был потерян на несколько десятилетий, его возобновили только после долгосрочного анализа данных и изучения механизма работы машин, записывающих информацию на магнитные лентыШаблон:Sfn.

В 1995 году правительство США чуть не потеряло доступ к части данных национальной переписи населения из-за устаревшей технологии поиска данных[3].

В 2019 году стало известно, что социальная сеть Myspace удалила всю музыку, загруженную на сайт в период с 2003 по 2015 год. Были удалены примерно 53 млн файлов. Безвозвратная потеря данных вызвала широкую общественную реакцию[12][13].

В декабре 2018 года правительство штата Мэн сообщило о потере большого количества документации, произведённой за 2005—2011 годы администрацией губернаторов Ангуса Кинга и Джона Балдаччи. В число утерянных данных вошла бо́льшая часть электронных писем, отправленных от лица правительства штата до 2008 года[2].

В 2019 году социальная сеть Google+ прекратила свою работу, удалив профили основателей и ведущих сотрудников компании — Сундара Пичаи, Эрика Шмидта, Сергея Брина и Ларри Пейджа[14]. Это привело к потере данных о принятии некоторых ключевых решений в истории Google, например, разъяснений политики компании в отношении программы PRISM в 2013 году[15].

Предотвращение

Шаблон:Main

Создание общих стандартов

Одним из главных условий повсеместного внедрения практик электронного архивирования является развитие общих стандартов по сохранению цифровых материалов. Так, впервые опубликованный в 1997 году международный стандарт Шаблон:Iw (OAIS) определяет подходы и решения в области электронного архивирования[16]. OAIS содержит описание «архивного пакета» и «цифровых объектов». Впоследствии стандарт стал прототипом для будущих инициатив по созданию электронных репозиториев, доступу к существующим базам данных и метаданнымШаблон:Sfn. В 2003 году OAIS утвердили в качестве международного стандарта IISO 14721:2003 «Базовая модель открытой архивной информационной системы» (Open Archival Information System) l (OAIS)Шаблон:Sfn.

Другим основополагающим стандартом является DOD 5015.2, созданный в результате серии международных коллабораций Шаблон:Iw, инициированных в 1994—1997 годах Университетом Британской Колумбии совместно с Министерством обороны США и Национальным управлением архивов и документации СШАШаблон:Sfn[17]Шаблон:SfnШаблон:Sfn.

Технические стратегии

«Цифровой тёмный век» можно предотвратить при внедрении ряда технических стратегий по сохранению электронных документов. Одной из таких стратегий является консервация — работа с материалами в оригинальных форматах и на оригинальных носителях. В результате исходная информация доступна в первозданном форматеШаблон:Sfn.

К другим способам архивирования относят эмуляцию (воспроизведение функциональной системы для обеспечения доступа к устаревшим файлам и форматам)[16]Шаблон:Sfn, инкапсуляцию (включение технического описания документа в состав самого цифрового объекта, благодаря чему уменьшается его зависимость от внешней среды)[16][18], а также миграцию (перенос электронных документов на другие носители или же в другую операционную систему, например, с магнитной ленты на компакт-диск). Последний способ является одним из самых популярных, поскольку позволяет сохранить целостность цифрового материала и способность пользователей находить и использовать информацию и не зависеть от устаревания технологийШаблон:SfnШаблон:SfnШаблон:Sfn. В отдельных случаях применяют археологию данных или спасение электронных объектов, которые стали недоступными из-за технологического устаревания и/или физической деградации. Однако ввиду высокой стоимости и отсутствия гарантий на восстановление использование подобного метода обычно считается вынужденной меройШаблон:Sfn[16].

Архивирование интернета

Шаблон:Main

В 1996 году в Сан-Франциско американский программист Брюстер Кейл основал некоммерческую организацию Архив Интернета. Деятельность «Архива» направлена на архивирование всей когда-либо опубликованной в интернете информации. Коллекция состоит из множества архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения. В 2001 году Кейл запустил отдельный сервис Wayback Machine, занимающийся сохранением веб-страниц с помощью поисковых роботов или веб-краулеровШаблон:Sfn. Архивные снимки отображаются в формате HTML, JavaScript и CSSШаблон:Sfn[19]. На июль 2021 года Wayback Machine предоставлял доступ к более чем 591 млрд сохранённых веб-страниц[20]Шаблон:Sfn.

К другим аналогичным проектам относят созданный Библиотекой Гарвардской школы права портал Perma.ccШаблон:Sfn, сайт archive.today[21], а также WebCite[22].

Проекты

В 2007 году Национальные архивы Великобритании и Microsoft объявили о начале сотрудничества в сфере архивирования данных. В рамках совместного проекта компания работала с Британской библиотекой над установкой Virtual PC — программного пакета визуализации, позволяющим пользователем запускать сразу несколько операционных систем одновременно и получать доступ к устаревшим форматом Microsoft Office. Так, только в архивах Великобритании хранится около 580 терабайт данных, записанных на старых версиях Office[23].

В 2018 году по результатам ежегодного Всемирного экономического форума в Давосе было принято решение запустить Global Centre for Cybersecurity. Деятельность центра направлена на предотвращение наступления цифрового тёмного века[24]. Над долгосрочным контролем и поддержанием электронных материалов работают службы цифрового хранения, такие как Шаблон:Iw, HathiTrust и Шаблон:Iw[25].

В рамках борьбы с проблемой потери цифровых данных многие издания архивируют собственные выпуски. Так, The Economist предоставляет электронные копии каждого номера, начиная с первого выпуска в 1843 году[26], а The New York Times инициировала проект по сохранению онлайн-контента. На официальном сайте газеты размещена копия HTML-страниц с момента их первой публикации, с сохранением дизайна[27].

Одними из первых организаций, начавших разрабатывать практики по сохранению электронных писем, стали Архивы Смитсоновского института. В своих коллекциях Архивы хранят записи электронной почты, относящиеся к 1980-м годам и созданные с помощью ELM[28]. Под руководством Библиотеки Конгресса действовала архивная программа Шаблон:Iw, занимающаяся распространением информации о проблемах сохранения цифровых данных[29].

Архивированием научных работ занимаются такие проекты как Jstor, DSpaceШаблон:Sfn, arXiv.org, JSTOR, Public Library of Science (PLoS), Шаблон:IwШаблон:Sfn. По состоянию на октябрь 2021 года Шаблон:Iw насчитывает более 16 900 журналов открытого доступа и более 5 млн статей[30].

Критика

Отдельные исследователи и журналисты указывают на то, что повседневные цифровые данные не нуждаются в дополнительном архивировании по причине того, что интернет и так переполнен информацией, которую люди добавляют в свои аккаунты в социальных сетях. Поэтому у следующих поколений не будет проблем с доступом к информации[31]. Другие критикуют термин за его предполагаемый «алармистский» характер. По мнению сторонников этой теории, в области сохранения данных уже был достигнут значительный прогресс и использование такой риторики только преувеличивает проблему и намеренно искажает ситуациюШаблон:Sfn.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки