Русская Википедия:Вымирание ссылок

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Вымира́ние ссы́лок (Шаблон:Lang-en, дословно — гниение ссылок) — процесс, в результате которого используемые URL-адреса больше не направляют на первоначальный источник. Такие ссылки называют битыми или мёртвыми. Под вымиранием или гниением понимают два основных процесса: reference rot (вымирание сносок) и link rot (вымирание ссылок). В первом случае URL-адрес остаётся рабочим, но ведёт на неправильную или видоизменённую страницу. Это явление также носит название дрейф контента. Дрейф обнаружить сложнее, но он влечёт более существенные последствия, так как способствует распространению дезинформации или подмене понятий. В случае с link rot недоступной является ссылка, из-за чего пользователи теряют доступ к веб-странице.

Ссылки могут перестать работать по множеству причин. Иногда для этого требуется изменение только одного символа в URL. К примеру, многие сайты перестали использовать приставку «www», и даже если их содержание осталось прежним, исходные ссылки прекратили работать. То же самое может произойти с внедрением шифрования и переходом от «http:» к «https:». Также владельцы сайтов переименовывают каталоги, меняют доменные имена и структуру порталов, а также забывают обновлять регистрацию домена — всё это приводит к появлению битых ссылок.

Вымирание ссылок прогрессирует со временем. Так, с 1996 по 2021 год перестала работать четверть ссылок на сторонние ресурсы в статьях издания The New York Times (NYT). Данные получены на основе анализа свыше 550 тысяч публикаций сотрудниками юридического факультета Гарвардского университета совместно с журналистами NYT[1]Шаблон:Sfn[2].

Характеристика

Гиперссылки широко используются не только в повседневной коммуникации, но и в журнальных статьях, научных докладах и других видах публикаций. Их популярность объясняется удобством и доступностью. Так, например, согласно профессору права Гарвардского университета Лоуренсу Лессигу, цитируемые онлайн-статьи потенциально достигают большего количества читателей, так как к ним можно получить доступ «просто перейдя по ссылке». Одновременно с этим всё больше газет и журналов переходит в онлайн-формат. Анализ более чем 100 000 статей показал, что среднее количество цитирований печатных работ составило 2,74, а онлайн версий — 7,03Шаблон:Sfn. Процент статей, цитирующих хотя бы один URL-адрес, увеличился с 24 % в 2006 году до 48,5 % в 2013-мШаблон:SfnШаблон:SfnШаблон:Sfn.

Под вымиранием ссылок (Шаблон:Lang-en, дословно – гниение ссылок) понимают два основных процесса: вымирание сносок (Шаблон:Lang-en) и вымирание ссылок (Шаблон:Lang-en). В первом случае URL-адрес остаётся рабочим, но ведёт на неправильную или видоизменённую страницу. Это явление также носит название дрейф контента (Шаблон:Lang-en). В отличие от печатных источников, содержание веб-страницы может меняться без какого-либо специального обозначения. Дрейф обнаружить сложнее, но он влечёт более существенные последствия, так как способствует распространению дезинформации или подмене понятийШаблон:Sfn. Случай, когда URL недоступен и выдаёт ошибку называется link rotШаблон:SfnШаблон:SfnШаблон:SfnШаблон:Sfn[3][4][5].

Причины

Главной причиной вымирания ссылок является децентрализация всемирной паутины — дизайн сети не подразумевает централизованного сохранения контента. Продолжительность работоспособности ссылок определяется владельцами доменного имени[6], которые зачастую забывают обновить регистрацию домена, отслеживать контент и появление битых ссылок. Кроме того, сайты регулярно изменяются — на веб-страницах меняют информацию и структуру самих сайтов, переименовывают файлы и каталоги, перемещают контентШаблон:SfnШаблон:Sfn. Частота и степень изменений веб-страницы зависит и от размера документа. Большие документы меняются чаще, чем меньшие по размеру[7]. Всё это приводит к вымиранию ссылокШаблон:SfnШаблон:Sfn[8]Шаблон:Sfn. В 2009 году Yahoo! отключили сервера бесплатного веб-хостинга GeoCities, что привело к потере данных о 7 млн веб-сайтов[9]. Помимо этого вымирание может быть вызвано сменой настроек доступа, например, при вводе регистрации или внедрении подписки на ранее открытый контент Шаблон:Sfn. Ссылки могут исчезнуть и в результате преднамеренных действий. Так, после изменения политики редакции BuzzFeed в 2015 году были удалены более 1000 постов, в том числе те, на которые ранее жаловались рекламодатели портала или сотрудники партнёрских компаний[10][11][12][13].

Чтобы ссылка стала нерабочей, достаточно изменения одного символа в URL-адресе. Например, многие сайты перестали использовать префикс «www», и, даже несмотря на то, что их содержание не изменилось, исходные ссылки перестали работать. То же самое может произойти с внедрением шифрования трафика: некорректная настройка при переходе от «http:» к «https:» влечёт "поломку" ссылки[14]. Если ссылка оказывается битой, то пользователи могут столкнуться с нескольким видом ошибокШаблон:Sfn[15]Шаблон:SfnШаблон:SfnШаблон:Sfn:

  • ошибка 404 или страница не найдена выпадает в случае, если файл был удалён с сервера или реорганизован;
  • ошибка 400 (Bad request) всплывает когда запрос не может быть обработан сервером из-за ошибки пользователя — например, неверного запроса;
  • ошибка 401 HTTP выдаётся при ограничении доступа к ресурсу — когда материалы расположены в защищённом паролем каталоге.;
  • внутренние ошибки сервера отображаются ошибкой 504 Gateway или ошибкой 502 Bad Gateway;
  • неизвестные ошибки (код HTTP 901) связаны с проблемами DNS, такими как сбой поиска имени доменаШаблон:Sfn.

Постоянство работоспособности ссылок обеспечивают три основных фактора: год публикации, иерархия URL-адресов и домен верхнего уровняШаблон:SfnШаблон:Sfn. Чем старше ссылка, тем больше вероятность, что она будет недоступна. Сноски с указанием даты доступа к информации вероятнее всего будут обладать большей стабильностью — даже если веб-страница окажется недоступной, зная дату доступа, пользователи смогут воспользоваться сервисами архивирования, вроде Wayback Machine. Также домены верхнего уровня считаются более стабильнымиШаблон:Sfn. Сайты под руководством частных лиц, как правило, исчезают чаще, чем правительственные и образовательные ресурсыШаблон:Sfn. Исследование 2003 года показало, что чаще всего вымирали ссылки, оканчивающиеся на «.com» (46 % потеряно через 27 месяцев), затем — «.edu» (30 %), другие — (20 %), «.gov» (10 %) и «.org» (5 %)Шаблон:Sfn. Шаблон:Врезка

Распространённость

Первые масштабные исследования распространённости вымирания ссылок начали проводиться ещё в конце 1990-х годов. Одним из первых исследователей был Якоб Нильсен – специалист в области эксплуатационных характеристик веб-узлов. В 1998-м он сообщил о результатах исследования, проведённого All Things Web, согласно которому около 6 % ссылок в интернете являлись нерабочими[16]Шаблон:Sfn. Впоследствии профессор Университета Теннесси Салли МакМиллан проанализировала выборку сайтов за 1997—2000 годы и обнаружила, что 27 % URL исчезали через три года после созданияШаблон:Sfn. Последующий анализ доказал, что количество мёртвых ссылок увеличивается линейно с течением времени. Так, в 2008 году мёртвые ссылки присутствовали в 8,3 % URL-адресов ресурсов из статистически значимой выборки в 579 заголовков. В 2009 году нерабочие ссылки были обнаружены в 13,7 % URL-адресов из выборки в 680 сайтов, а в 2010-м вымершие ссылки составили 22,4 % от всех URL-адресов из выборки в 736 ссылокШаблон:SfnШаблон:Sfn. В 2021 году команда сотрудников юридического факультета Гарвардского университета совместно с журналистами The New York Times (NYT) провели исследование жизнеспособности цитирований на основе выпущенных NYT онлайн-версий статей. Всего было изучено свыше 550 тысяч публикаций за период с 1996 года, которые содержали около 2,2 млн ссылок на сторонние сайты. Исследование показало, что почти четверть всех используемых при цитировании ссылок перестала работать[1]Шаблон:Sfn[2][1]Шаблон:Sfn[2].

Вопросу вымирания ссылок посвящён ряд исследований. В них были проанализированы научные статьи, в которых авторы опирались на интернет-источники. Исследование от 2003 года показало, что около 13 % URL ссылок, опубликованных в трёх ведущих научных журналах, перестали работать в течение двадцати семи месяцев после публикации статьи. В 2008 году исследование исторических журналов обнаружило, что 38 % процитированных URL-адресов стали недоступны в течение семи лет после публикации статьи, 10 % — потеряли работоспособность в течение нескольких месяцев. В выборке новозеландских научных журналов 2002-2005 годов 30 % веб-цитирований перестали работать к 2006 годуШаблон:Sfn. В 2013-м Шаблон:Iw провела анализ продолжительности жизни ссылок в научной литературе. Учёные Джейсон Хеннесси и Стивен Ксиджин Ге из Университета Южной Дакоты проанализировали около 15 000 ссылок в отрывках из индекса цитирования Web of Science. Они обнаружили, что средняя продолжительность жизни веб-страниц составляла 9,3 года и только 62 % ссылок были заархивированы[14]. Это привело исследователей к заключению, что скорость распада для недавних URL-адресов выше, чем старыхШаблон:SfnШаблон:SfnШаблон:SfnШаблон:Sfn. Учёные также обнаружили, что в ряде юридических журналов, опубликованных в период с 1999 по 2011 год, более 70 % ссылок больше не функционировали[14]Шаблон:Sfn.

В 2008 году ежеквартальный анализ четырёхлетних публикаций ведущих изданий показал сохранение только 61% из 416 онлайн-цитирований. 19 % онлайн-сносок содержали ошибку в URL-адресе, а 63 % не указывали дату доступа в опубликованной цитате. Из тех ссылок, которые все еще были активны, только 58 % соответствовали цитируемому контентуШаблон:Sfn[17]Шаблон:Sfn. В 2015 году специалист по информации из Национальной исследовательской библиотеки Лос-Аламосской лаборатории в Нью-Мексико Герберт Ван де Сомпель проанализировал более 1 млн веб-ссылок на сайты из примерно 3,5 млн работ, опубликованных в период с 1997 по 2012 год. В статьях 2012 года 13 % гиперссылок в статьях arXiv.org и 22 % гиперссылок в статьях из журналов Elsevier были мёртвыми. Около 75 % ссылок не были архивированы ни на одном портале в течение двух недель после даты публикации статьи. Это означает, что их содержание может больше не отражать первоначальноеШаблон:SfnШаблон:Sfn.

Ярким примером масштаба вымирания ссылок является проект Алекса Тью The Million Dollar Homepage. Портал был запущен в 2005 году для того, чтобы Тью собрал деньги на университетское образование. Для этого он придумал сайт с сеткой 1000 на 1000 пикселей, на котором можно было бы приобрести место для ссылки на свой сайт по доллару за одну штуку. Покупатели могли расположить небольшие изображения своих сайтов, к которым был привязан URL и слоган, отображаемый при наведении курсора. Все пиксели были проданы спустя 138 дней после запуска портала. К 2014 году 22 % пикселей главной страницы не загружали веб-страницу[18][19].

Последствия

Судебная система

В Верховном суде США сложилась практика цитирования постоянных источников — как правило, это были книги. Такие цитаты позволяли юристам и ученым найти, понять и оценить доказательства и доводы суда. Однако начиная с 1996 года судьи всё чаще используют ссылки и гиперссылки при описании судебных решений[20][3]Шаблон:Sfn. Согласно исследованию профессора гарвардской школы права Джонатана Зиттрейна, проведённому в 2013 году, около 49 % гиперссылок в решениях Верховного суда не работали[21][22][23]. Суд занимает верхнюю позицию в иерархии федеральных судов, определяя законы страны и даже влияя на законы в международных юрисдикциях, поэтому мёртвые ссылки в решениях могут оказать особенно разрушительный эффектШаблон:Sfn. Так, когда в 2011-м судья Сэмуэль Алито в деле о насилии в видеоиграх сослался на URL-адрес, владельцы домена отказались от веб-сайта и оставили на нём такое сообщение, чтобы подчеркнуть эфемерность размещаемой в интернете информации[24]:

«

Разве вы не рады, что не процитировали эту веб-страницу в отчёте Верховного суда по делу Браун против Шаблон:Iw, 131 S.Ct. 2729, 2749 n.14 (2011). Если вы сделали это, как это сделал судья Алито, исходный контент давно бы исчез, и кто-то другой мог бы прийти и купить домен, чтобы прокомментировать быстроту связанной информации в эпоху Интернета.

»
— Анонимус

Для решения этой проблемы все цитируемые в судебных решениях веб-материалы стали архивировать в бумажном виде. Помимо этого был создан специализированный портал, на котором сохраняют архивированные копии сайтов[25].

Подобные проблемы могут возникнуть и при составлении протоколов — полиция может опираться на опубликованную в интернете запись с видеорегистраторов, которая впоследствии может быть удалена владельцем. Другой вопрос связан с тем, как долго хранить данные в системе — у большинства полицейских управлений нет достаточных технических возможностей, чтобы справляться с объёмом поступающих данных[24].

Наука

Вымирание ссылок нарушает и подрывает целостность и доказательную базу научных исследований во всех областях[26]Шаблон:SfnШаблон:SfnШаблон:Sfn. Уже в 1996 году треть цитирований в рецензируемых электронных журналах была недоступна, а многие рабочие ссылки не содержали полную информацию — отсутствовала дата извлечения, а метаданные были неправильно оформленыШаблон:Sfn. Согласно проведённому в 2016 году исследованию, 75 % ссылок на научный контент больше не указывают на информацию, цитируемую в тексте[27]. При этом количество научных работ, ссылающихся на интернет-ресурсы, неуклонно растётШаблон:Sfn. Отдельные журналы, такие как Шаблон:Iw, стали запрещать использование URL-адресов в примечаниях. Однако такая практика скорее является исключениемШаблон:Sfn.

Повсеместное вымирание ссылок привело и к изменению практик библиотек в архивировании материаловШаблон:Sfn. Если раньше основным способом хранения информации считались бумажные копии, а их онлайн-версии были дополнительной опцией, то теперь библиотеки и издательства переходят на цифровой формат, считая печатный устаревшим[6]. Многие библиотеки начали создавать собственные онлайн-архивы с постоянным доступом к хранимым материаламШаблон:Sfn[28].

Цифровой тёмный век

Шаблон:Main Вымирание ссылок является неотъемлемой частью прогнозируемого сценария цифрового тёмного века — ситуации, когда произойдет потеря электронных данных при полном отсутствии их бумажных эквивалентов. Сторонники этой теории считают, что из-за неадекватных практик электронного архивирования и растущей децентрализации интернета существует риск потери информации о нашей эпохе в будущемШаблон:Sfn[29]. Термин цифровой тёмный век (Шаблон:Lang-en) был впервые предложен в 1997 году на международной конференции Международной федерации библиотечных ассоциаций и учреждений. Определение отсылает к эпохе средних веков, характеризуемой практически полным отсутствием письменных свидетельствШаблон:SfnШаблон:Sfn[30]. Одним из самых распространённых примеров проявления «цифрового тёмного века» — потеря доступа к старым накопителям и носителям информации, включая дискеты, Zip-накопители и компакт-диски[31][32][33][34][35][36].

Предотвращение

Веб-архивирование

Файл:Brewster Kahle 2009.jpg
Создатель «Архива Интернета» Брюстер Кейл в 2009 году
Файл:Wayback Machine logo 2010.svg
Логотип Wayback Machine, 2010 год

Шаблон:Main Электронное архивирование является одной из основных стратегий борьбы с вымиранием ссылокШаблон:Sfn. В этой сфере действуют сразу несколько крупных проектов. В 1996 году американский программист Брюстер Кейл основал «Архив Интернета» — некоммерческую организацию, поставившую перед собой цель сохранить всю размещённую в интернете информацию, которой в первые годы существования сети было не так много. Коллекция «Архива» состоит из подколлекций архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения. В 2001 году был запущен сервис Wayback Machine, который через работу веб-краулеров архивирует и предоставляет доступ к бо́льшей части открытого интернета. Помимо этого сервис позволяет пользователям сравнивать разные версии правок. На октябрь 2021 года WB предоставлял доступ к более чем 580 млрд сохранённым веб-страницам[37]Шаблон:Sfn[38][37]Шаблон:Sfn. Хранение данных осуществляется через систему зеркальных сайтов, расположенных в географически отдалённых друг от друга местахШаблон:Sfn - в Сан-Франциско, Ричмонде, Александрии, Амстердаме. Для эффективного хранения файлов «Архив» использует формат файла архива (ARC), позволяющий сохранить файлы, полученные по любому типу сетевого протокола. Архивные снимки отображаются в формате HTML, JavaScript и CSSШаблон:Sfn[14]Шаблон:SfnШаблон:Sfn.

Также по инициативе «Архива» был создан сервис Archive It — служба веб-архивирования, позволяющая частным лицам и отдельным организаторам самостоятельно собирать, создавать и сохранять коллекции электронных материалов. На октябрь 2021 года пользователи могут получить доступ к более чем 200 коллекциям по истории, культуре, науке, правам человека и другим общественно важным темамШаблон:Sfn[14]Шаблон:SfnШаблон:Sfn.

Аналогичным проекту Wayback Machine является Perma.cc — служба архивирования, созданная Библиотекой Гарвардской школы права в Кембридже (штат Массачусетс). В Perma.cc можно ввести URL-адрес и система автоматически его заархивирует, создав новую гиперссылку для постоянного хранения материалаШаблон:SfnШаблон:Sfn. Чаще всего Perma используют в правовой сфере для сохранения цитируемых источниковШаблон:Sfn. Распространённый в США стилистический справочник Шаблон:Iw поощряет архивирование ссылок[39][40]. Однако отдельные исследователи указывают на потенциальную уязвимость портала, поскольку настоящее законодательство об авторском праве уделяет недостаточное внимание вопросу существования и деятельности веб-архивовШаблон:Sfn.

Проект c открытым исходным кодом Amber, созданный Шаблон:Iw, позволяет сделать снимки каждой связанной с архивированным веб-сайтом страницы и сохранить их локально или на централизованную платформу, такую как «Архив Интернета» или Perma.cc. Если при введении материала в Amber проект обнаруживает, что ссылка не работает или работает некорректно, Amber предлагает архивациюШаблон:Sfn[41].

Цифровой идентификатор объекта (DOI)

Шаблон:Main Для борьбы с вымиранием ссылок в научной сфере используют цифровой идентификатор объекта (DOI), разработанный Международной организацией по стандартизации в 2000 году. DOI — это постоянный идентификатор, функционирующий как ссылка на конкретный объект, будь то статья, аудио или видеоматериалШаблон:SfnШаблон:Sfn. После присвоения DOI объект получает «вечную» закреплённую ссылку, которая, в отличие от URL-адресов, не может быть перемещена или удалена. Многие издательства адаптировали систему[42]. DOI хранится в специализированных реестрах вместе с метаданными о каждом отдельном элементе. Цитирование работ осуществляется через числовой идентификатор, а не через гиперссылку. Подобная система позволяет создать стабильность в сфере научного цитирования — даже если материал будет перенесён на новый URL, он всё равно будет доступенШаблон:Sfn. По разным оценкам, с помощью повсеместного внедрения DOI можно предотвратить вымирание 30-60 % ссылок в научных работахШаблон:Sfn[43][14]Шаблон:Sfn. Однако у DOI существует существенный недостаток — из-за необходимости вносить плату за регистрацию работ, многие небольшие издательства не могут себе позволить внедрение системыШаблон:Sfn.

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки