Русская Википедия:DataOps

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

DataOps — набор практик, процессов и технологий, который сочетает, интегрированный и ориентированный на процесс, взгляд на данные с автоматизацией и методами гибкой инженерии программного обеспечения для улучшения качества, скорости, сотрудничества и продвижения культуры непрерывного улучшения в области анализа данных.[1] Хотя DataOps начинался как набор самых лучших практик, к настоящему моменту он созрел для того, чтобы стать новым и независимым подходом к анализу данных.[2] DataOps applies to the entire data lifecycle[3] from data preparation to reporting, and recognizes the interconnected nature of the data analytics team and information technology operations.[4]

DataOps включает методологию Agile для сокращения время цикла разработки аналитики в соответствии с целями бизнеса.[3]

DevOps фокусируется на непрерывной доставке используя по запросу IT ресурсы и автоматизируя тестирование и развертывание программного обеспечения. Это объединение разработки программного обеспечения и IT операций позволило улучшить скорость, качество, предсказуемость и масштаб инженерии программного обеспечения и его развертывания. Заимствуя методы DevOps, DataOps стремится привнести те же улучшения в анализ данных.[4]

DataOps использует статистическое управление процессами (statistical process control (SPC)) для мониторинга и контроля конвейера аналитики данных. При применении SPC, поток данных, протекающих через работающую систему, непрерывно контролируется и проверяется на работоспособность. При появлении аномалии, команда анализа данных может быть уведомлена с помощью автоматизированного сигнала тревоги.[5]

DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или фреймворку. Инструменты которые поддерживают DataOps продвигают сотрудничество, оркестровку, качество, безопасность, доступность и легкость использования.[6]

История

DataOps был впервые представлен Ленни Либманном, пишущим редактором журнала InformationWeek, 19 июня 2014 года в блог-посте на информационном хабе IBM Big Data & Analytics Hub, озаглавленном «3 причины, почему DataOps необходим для успеха больших данных» («3 reasons why DataOps is essential for big data success»).[7] Позднее термин DataOps был популяризован Энди Палмером и Стеф Локком.[8][4] DataOps является сокращением от «Data Operations».[3] 2017 год был знаменательным годом для DataOps со значительным развитием экосистемы, охватом аналитики, увеличением количества поисковых запросов, обзорам, публикациям, и количеству проектов с открытым исходным кодом.[9] По мнению компании Gartner DataOps находился в цикле хайпа Управления данными в 2018 году.[10]

Файл:Dataops.gif
DataOps наследует от DevOps, Agile, и производства

Цели и философия

Прогноз роста объема данных составляет 32 % совокупного среднегодового темпа роста (CAGR) до 180 Зеттабайт к 2025 году.(Источник: IDC).[6] DataOps стремиться предоставить инструменты, процессы, и организационные структуры для того, чтобы справиться с этим значительным увеличением данных.[6] Автоматизация упрощает повседневную потребность в управлении большими интегрированными базами данных, освобождая команды, занимающиеся данными для разработки новой аналитики более действенным и эффективным способом.[11][4] DataOps стремиться увеличить скорость, надежность, и качество анализа данных.[12] Он ставит акцент на коммуникацию, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между учеными в области данных, аналитиками, ETL инженерами, специалистами по информационным технологиям (IT), и специалистами обеспечения и управления качеством.

Реализация

Тоф Уитмор в компании Blue Hill Research предлагает следующие лидерские DataOps принципы для департамента информационных технологий:[2]

  • «Установить измерения прогресса и производительности на каждом этапе потока данных. Там, где возможно, измерить время циклов потоков данных на соответствие стандарту.»
  • Определить правила абстрактного семантического слоя. Убедиться что все „разговаривают на одном и том же языке“ и прийти к соглашению, что является данными (и метаданными), а что нет.
  • Проверять глазами: Включить непрерывное улучшение циклов обратной связи предназначенных для людей. Потребители должны иметь возможность доверять данным, а это может произойти только с возрастанием проверки.
  • Автоматизировать такое множество этапов потока данных какое только возможно включая бизнес-аналитику(BI), науку о данных, и аналитику.
  • Используя информацию о проверки производительности, найти узкие места и оптимизировать их после этого. Для этого в процессе могут потребоваться инвестиции в оборудование, или автоматизация процесса, занимающегося наукой о данных, который прежде выполнялся людьми.
  • Установить дисциплину управления, с особым вниманием в двухстороннему контролю за данными, владению данными, прозрачности, и всестороннему отслеживанию происхождения данных во время всего рабочего процесса.
  • Спроектировать процесс с учётом роста и расширяемости. Модель потока данных должна быть спроектирована для вмещения объемов и разнообразия данных. Следует убедиться, что имеющиеся технологии, с учётом роста данных предприятия,имеют доступную для масштабирования стоимость.»

События

  • Data Opticon[13]
  • Data Ops Summit[14]
  • Data Ops Online Champion[15]

Ссылки

Шаблон:Примечания