Русская Википедия:Тёмные данные

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Тёмные данные — данные, которые автоматически собираются в ходе рутинных действий в компьютерных сетях, но никоим образом не используются для получения информации или принятия решений[1][2]. Способность организации собирать данные может превышать пропускную способность, с которой она может анализировать данные. В некоторых случаях организация может даже не знать, что данные собираются[3]. По оценкам IBM, примерно 90 процентов данных, генерируемых датчиками и аналого-цифровыми преобразователями, никогда не используются[4].

В промышленном контексте тёмные данные могут включать информацию, собранную датчиками и телематикой[5].

Организации хранят скрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1 % своих данных[6]. Причинами хранения неиспользуемых данных может быть необходимость соблюдения нормативных требований[7] и ведения архивов[1]. Некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики[3]. Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой более высокие расходы, чем потенциальная прибыль.

Профессор Дэвид Хэнд из Имперского колледжа Лондона использует термин «тёмные данные» для обозначения отсутствующих данных: «тёмные данные — это данные, которых у вас нет»[8]Шаблон:Efn.

Анализ

Многие тёмные данные неструктурированы, что означает, что информация представлена в форматах, которые может быть трудно классифицировать, прочитать компьютером и, таким образом, проанализировать. Часто причина того, что бизнес не анализирует свои тёмные данные, заключается в количестве ресурсов, которые ему потребуются, и сложности анализа этих данных. По данным журнала Шаблон:Нп5, 60 % организаций считают, что их собственные возможности бизнес-аналитики «неадекватны», а 65 % говорят, что у них «несколько неорганизованные подходы к управлению контентом»[9].

Актуальность

В категорию тёмных данных могут попадать и полезные данные, потерявшие актуальность со временем. Это происходит из-за недостаточной скорости обработки данных. Например, если геолокация клиента известна бизнесу, компания может сделать предложение на основе местоположения, однако, если эти данные не обрабатываются немедленно, они могут быть неактуальными в будущем. По данным IBM, около 60 процентов собираемых данных сразу теряют свою ценность[4].

Хранение

По данным New York Times, 90 % энергии, используемой центрами обработки данных, тратится впустую[10]. Отказ от хранения избыточных данных позволил бы сэкономить на расходах на электроэнергию. Кроме того, существуют издержки, связанные с недоиспользованием информации и, как следствие, упущенными возможностями. Согласно Datamation, «данные, которые хранятся в организациях-членах EMEA, на 54 % состоят из тёмных данных, 32 % — избыточные, устаревшие и тривиальные данные, и лишь 14 % представляют какую-то ценность». По состоянию на 2020 год хранение избыточных данных обходится примерно в 900 млрд долл. США[11].

Постоянное хранение тёмных данных может подвергнуть организацию риску, особенно если эти данные являются конфиденциальными. Утечка данных может привести к серьезным последствиям: финансовым, юридическими и репутационным. Например, утечка личных данных клиентов может привести к массированной краже личных данных . Другим примером может быть утечка собственной конфиденциальной информации компании, например, относящейся к исследованиям и разработкам . Эти риски можно уменьшить, оценив и проверив необходимость данных для организации, а также используя надежное шифрование и другие меры безопасности[12]. Удаление ненужных данных следует делать таким образом, чтобы их невозможно было восстановить[13].

Будущее

Принято считать, что по мере создания более совершенных вычислительных систем, ценность тёмных данных будет возрастать. Существует мнение, что данные и их анализ станут основой новой промышленной революции[5]. В число потенциально полезных данных входят и те, которые в настоящее время считаются «тёмными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять потребности потребителей. Особенно большую пользу от обработки неиспользуемых данных могут в будущем получить организации здравоохранения и образования, которые имеют дело с большими объемами данных[14].

Примечания

Сноски

Шаблон:Комментарии

Источники

Шаблон:Примечания

Литература