Русская Википедия:Викиданные

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Карточка сайта «Викида́нные» (Шаблон:Lang-en) — совместно редактируемая база знаний, созданная Фондом Викимедиа. Используется для обеспечения централизованного хранения данных, которые могут использоваться в других проектах, в том числе в статьях Википедии — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и т. п.[1] Содержимое Викиданных распространяется по лицензии Creative Commons CC0[2].

История

Создатель всемирной паутины Тим Бернерс-Ли описывал её как совокупность связанных между собой человекочитаемых документов, расположенных на серверах по всему миру.

Логическим развитием этой идеи стала семантическая паутина, предложенная им же в 2001 году. Она предполагала построение столь же масштабной и распределённой сети взаимосвязанных машиночитаемых данных.

Одной из важных вех в реализации этой идеи стало анонсирование компанией Google в мае 2012 года концепции Knowledge GraphШаблон:Source-ref. На тот момент уже существовали аналогичные (хоть и значительно менее масштабные) инструменты этого типа, такие как DBpedia и Шаблон:Iw (автоматически импортировавшие данные преимущественно из википедии), а также Freebase, Шаблон:Iw и OpenCyc (преимущественно наполняемые людьми)Шаблон:Source-ref.

В октябре 2012 года была официально запущена разработка «Викиданных» под руководством Wikimedia DeutschlandШаблон:Source-ref, таким образом став первым новым проектом Фонда Викимедиа с 2006 годаШаблон:Source-ref.

Стартовое финансирование было получено от Шаблон:Iw, Шаблон:Iw и Google в размере 1,3 миллиона евроШаблон:Source-ref.

Первоочередной задачей было создание централизованного хранилища «интервики»-ссылок, то есть ссылок на страницы проектов Фонда, описывающих одни и те же темы.

Одна запись (элемент) Викиданных может быть связана с множеством страниц в любом вики-проекте, включая (но не ограничиваясь) всеми языковыми разделами Википедии.

Это позволяет «потребителям» Викиданных (например русской википедии), для каждой статьи отображать список аналогичных статей на других языках.Шаблон:Source-ref

Вместе с интервики-ссылками, у элементов Викиданных сразу появились и другие атрибуты (например, названия на поддерживаемых MediaWiki языкахШаблон:Source-ref). Традиционно в вики-проектах, базовая информация по теме статьи размещалась в Шаблон:Iw, поэтому целью следующего этапа было дать пользователям возможность сохранять в элементах структурированную информацию (например, «Луна → родительское тело → Земля» или «Эверест → высота над уровнем моря → 8848,86 метр») и отображать её в форме привычных читателю инфобоксов в связанных статьяхШаблон:Source-ref.

В сентябре 2015 года появилась возможность делать запросы к викиданным на языке SPARQL. Wikidata Query Service был реализован на основе open-source версии Blazegraph.Шаблон:Source-ref

В 2016 году разработчики анонсировали поддержку орфографических структур данных, в 2018 появилась возможность создания лексем и словоформ, а затем и указания их значений с помощью привязки соответствующего по смыслу элемента викиданных.Шаблон:Source-ref

Для упрощения моделирования и последующей валидации данных в мае 2019 года была введена поддержка для сохранения и совместного редактирования Шаблон:Iw-схемШаблон:Source-ref.

Также в 2019 году разработчики выпустили Шаблон:Iw (движок Викиданных) в виде самостоятельного продукта.Шаблон:Source-ref В 2021 году были анонсированы планы по запуску Wikibase.Cloud — SaaS в рамках которого пользователю предоставляются предварительно настроенные компоненты Шаблон:Abbr: собственно Wikibase, сервис SPARQL запросов, и т. п.

Проект

В основу проекта были положены следующие принципы:

  1. Свободное редактирование
  2. Множественность точек зрения (в том числе, конфликтующих)
  3. Многоязычность

Эти принципы отличали викиданные от аналогичных проектов. Например, разработка МКБ-11 велась силами ограниченного набора специалистов, Freebase не поддерживал многоязычность своих сущностей, а Semantic MediaWiki затрудняло простановку ссылок на внешние источники.Шаблон:Source-ref

Сервис запросов

Технически контент викиданных хранится в виде JSON-blobов в MySQL, поэтому готового инструмента для выполнения хоть сколь-нибудь сложных запросов в системе не было. Рассмотрев различные варианты включающие разработку специализированного софта, применения готовых NoSQL-продуктов и графовых баз данных, было решено остановится на последнем и внедрить Blazegraph. Данные из внутреннего json-представления элементов преобразуются в RDF и синхронизируются с внутренним хранилищем Blazegraph, доступным только для чтения. В качестве языка запросов используется SPARQL версии 1.1, с помощью синтаксической конструкции SERVICE можно обратиться как к специфичным для викиданных расширениям, так и запросить дополнительную информацию у некоторых сторонних источников. Таймаут на выполнение запросов составляет 60 секунд, если выполнение запрос не успевает завершится, он прерывается с ошибкой.Шаблон:Source-ref

Ключевым элементом сервиса является API, в который можно передать запрос и получить в требуемом формате таблицу с результатом. Для интерактивной работы существует веб-редактор запросов c подсветкой синтаксиса и автодополнением. Результаты выполнения запросов могут визуализироваться как в табличной форме, так и в виде карты, столбцовой диаграммы, галереи изображений и т. д.Шаблон:Source-ref

Контент-модель

Файл:Wikidata statement.svg
Терминология утверждений в Викиданных

Утверждения — это способ хранения любой информации об известном элементе. Формально, они состоят из пар ключ-значение, которые хранят соответствие свойства (например, «автор», или «дата публикации») с одним или несколькими значениями (например, «Артур Конан-Дойл» или «1902»). Например, неформальное утверждение «молоко — белое» (Шаблон:Lang-en) было бы закодировано с помощью утверждения, которое хранит пару. Это пара, состоящая из свойства P462 (цвет) — https://www.wikidata.org/wiki/Property:P462 со значением Q23444 (белый) https://www.wikidata.org/wiki/Q23444 в записи Q8495 (молоко) https://www.wikidata.org/wiki/Q8495.

Утверждения могут устанавливать отношение между свойством и более чем одним значением. Например, свойство «occupation» (род занятий) для Марии Кюри могло бы быть связано со значениями «физик» и «химик», чтобы отразить факт того, что она занималась и тем, и другим[3].

Значения могут быть разных типов, включая другие записи Викиданных, строки, числа или файлы с фото/видео. Свойства предписывают, с какими типами значений их можно связывать. Например, свойство «официальный сайт» может быть поставлено в соответствие только со значениями типа «URL»[4]. Также, свойства могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения» (Шаблон:Lang-en). Например, свойство «столица» включает в себя «ограничение на единственное значение») (Шаблон:Lang-en), отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки, чем как нерушимые правила[5].

При желании, для уточнения значения утверждения могут использоваться квалификаторы (Шаблон:Lang-en). Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент[6].

Сообщество

В августе 2019 года сообщество викиданных насчитывало порядка 20 тысяч зарегистрированных активных учетных записей.Шаблон:Source-ref. Исследователи обычно делят их на три группы: незарегистрированные пользователи, зарегистрированные люди и ботыШаблон:Source-ref. При этом граница между людьми и ботами достаточно условна в связи с массовым использованием инструментов типа QuickStatements, автоматизирующих выполнение рутинных правок без программированияШаблон:Source-ref.

Статистически, уравновешенный вклад и зарегистрированных участников-людей и ботов повышает качество данных в проекте, а вклад незарегистрированных участников (составляющий 0,5 % от всех правокШаблон:Source-ref) — снижает.Шаблон:Source-ref Порядка 2 % вклада анонимных участников имеют признаки автоматизированных правок, выполненных с использованием средств автоматизации. Это может быть проблемой для проектов, использующих викиданные, поскольку даже если небольшая доля подобных правок является вандализмом, репутация викиданных как относительно надежного источника структурированной информации может быть надолго подорвана.Шаблон:Source-ref

Как правило, большую часть пользователи времени занимаются одним видом деятельности, относительно редко переключаясь на другие (например те, кто добавляет в элементы интервики-ссылки, редко заполняют метки/описания, и наоборот)Шаблон:Source-ref. С течением «вики-жизни» пользователей, предпочитаемый вид деятельности может меняться, обычно в сторону задач, требующих навыков инженерии знаний (например, не просто добавления тривиальных фактов, а выделение супер/суб-классов элементов)Шаблон:Source-ref. Для выполнения некоторых подобных онтологических задач (например, для создание свойств) требуются специальные права доступа и процесс их получения может рассматриваться в качестве «вики-карьеры»Шаблон:Source-ref.

Боты

Ботами называются программы, которые автоматизируют повторяющиеся или рутинные задачи, которые люди считают трудоемкими и утомительными. Они управляются и контролируются волонтерами («ботовладельцами»)Шаблон:Source-ref. После нескольких случаев крайне неудачных действий ботов в OpenStreetMap и англоязычной википедии, в последней появился процесс предварительного обсуждения заявок на получение статуса бота и последующего её утверждения. В викиданных существует аналогичный процесс, тем не менее, порядка 3 % правок, совершенных от имени «живых» участников, выполняется с применением автоматизацииШаблон:Source-ref.

Сообщество викиданных положительно относится к ботам, выстроив продуктивный процесс взаимодействия в весьма короткий срок.Шаблон:Source-ref В 2014 году более 80 % правок в викиданных совершались ботами,Шаблон:Source-refШаблон:Source-ref что позволило ряду исследователей назвать этот проект «социотехнической системой»Шаблон:Source-ref. При этом, если в языковых разделах википедии боты преимущественно выполняют примитивные технические задачи, то в викиданных — в основном обновление содержательной информации.Шаблон:Source-ref Около 50 % правок приходится на модификацию утверждений и ещё порядка 30 % — на изменение меток, описаний и альтернативных названия.Шаблон:Source-ref

ИсследователиШаблон:Source-ref идентифицируют три основные проблемы, связанные со значительным объемом бото-правок в викиданных:

  1. Соотношение объема информации в викиданных (импортированных ботами) и числа участников-людей приводит к тому что Закон Линуса в этом проекте не работает.
  2. Набор источников, используемых ботами, значительно уже нежели набор источников, используемых людьми.Шаблон:Source-ref Комбинация этого фактора и ещё более ограниченного числа ботовладельцев может быть серьезной угрозой для представления широкого спектра точек зрения в викиданных.
  3. Огромный процент бото-правок в совокупности с многоязычностью членов сообщества может ограничивать участие существующих и приток новых пользователей в проект. Косвенным подтверждением этого тезиса является то, что на октябрь 2018 года лишь 10787 (из 45 миллионов) элементов викиданных имели страницы обсуждения.

Сообщества других вики-проектов

Почти сразу после того, как появилась техническая возможность отображать утверждения, сообщество крупнейшего раздела википедии обсуждало возможность показа служебного идентификатора IMDb. Решили что информация по прежнему будет показываться только из самой статьи, но в случае несовпадения идентификатора с тем, что есть в викиданных, она будет внесена в специальную служебную категорию для последующей выверкиШаблон:Source-ref. С тех пор пропоненты и оппоненты использования викиданных продолжают дискуссиюШаблон:Source-ref. В частности для удовлетворения требований последних по максимальной независимости их проектов от «внешних проектов», выработан принцип, который требует возможность переопределить значение любого элемента инфобокса внутри текста вики-статьи, подавив таким способом его отображение из викиданныхШаблон:Source-ref.

См. также

Примечания

Шаблон:Примечания

Ссылки

Шаблон:Викиновости-кат

Шаблон:Фонд Викимедиа

Внешние ссылки

Шаблон:Выбор языка