Русская Википедия:Семантическая информация

Семантическая информация — смысловой аспект информации, отражающий отношение между формой сообщения и его смысловым содержанием.

Начиная с работ Клода Шеннона, принято считать^[1], что понятие информации складывается из трёх аспектов: синтаксического, семантического и прагматического. Синтаксический связан с техническими проблемами хранения и передачи информации, семантический имеет отношение к смыслу и значению истинности сообщений, прагматический затрагивает вопросы влияния информации на поведение людей. Теория семантической информации исследует область человеческих знаний и является составной частью разработки искусственного интеллекта^[2].

История

Формирование понятия семантической информации

Возникновение семиотики в 19 веке создало предпосылки для появления понятия семантической информации^[3]. Окончательно оно сложилось после появления Математической теории связи, созданной Клодом Шенноном в 1948 году^[4]. Теория Шеннона, рассматриваемая сейчас как теория синтаксической информации, полностью игнорирует смысл сообщения. Именно тогда была осознана необходимость создания теории семантической информации.

Теория Бар-Хиллела и Карнапа

В 1952 году Йегошуа Бар-Хиллелом и Рудольфом Карнапом была предложена теория семантической информации, основанная на понятии логических вероятностей^[5]. Семантическая информация трактуется авторами как синоним смыслового содержания, которым обладают как истинные, так и ложные выражения. Рассматриваются две основные меры количества семантической информации в предложении <math>s</math>. Первая <math> \mbox{cont}(s)</math> определяется так:

<math> \mbox{cont}(s)=1-q(s)</math>,

где <math>q(s)</math> — абсолютная логическая вероятность предложения <math>s</math>. Вторая мера <math> \mbox{inf}(s)</math> является нелинейной функцией первой:

<math>\mbox{inf}(s)=\log_2{\frac{1}{1-\mbox{cont}(s)}}=\log_2{\frac{1}{q(s)}}</math>.

Она интересна тем, что для двух логически независимых предложений <math>s_1</math> и <math>s_2</math> имеем неравенство: <math>\mbox{cont}(s_1)+\mbox{cont}(s_2)>\mbox{cont}(s_1 \land s_2)</math>, где «<math>\land</math>» — знак логической связки «И», тогда как:

<math>\mbox{inf}(s_1)+\mbox{inf}(s_2)=\mbox{inf}(s_1 \land s_2)</math>, (*)

что больше подходит для меры количества информации.

Для определения величин логических вероятностей предложений Бар-Хиллел и Карнап конструируют формальный язык и составляют с его помощью описания всевозможных состояний универсума (так называемое «множество возможных миров»). Приведём пример простого языка, в котором имеется одна константа <math>a</math> (под ней мы будем подразумевать девушку Алису) и два предиката: <math>B</math> и <math>W</math>, обозначающие свойства «красива» и «умна». Тогда выражение <math>B(a)</math> означает предложение «Алиса красива», а выражение <math>W(a)</math> — «Алиса умна». Теперь используем логическую связку «НЕ», которую обозначим символом: «<math>\neg</math>». Тогда выражение <math>\neg B(a)</math> будет означать предложение «Алиса не красива», а выражение <math>\neg W(a)</math> — «Алиса не умна». Теперь мы можем составить все возможные описания состояний универсума для нашего скромного языка. Всего их будет четыре.

Как можно видеть, каждый мир универсума состоит из логически независимых атомарных предложений (и их отрицаний), называемых базисными. Обычно в формальных языках используется множество констант и множество предикатов, причём, не обязательно одноместных. Так что количество миров может быть очень большим.

Если не заданы предварительные условия, то логические вероятности всех миров одинаковы. В этом случае величина абсолютной логической вероятности предложения <math>s</math> равна отношению числа миров, в которых <math>s</math> истинно, к общему числу миров в универсуме. В теории Бар-Хиллела и Карнапа величины логических вероятностей аналитических выражений одинаковы и равны единице (поскольку они истинны во всех мирах), а логическая вероятность противоречия равна нулю. Величины логических вероятностей синтетических выражений заключены в интервале от нуля до единицы.

Чем больше миров в универсуме, тем выше неопределённость (относительно того, какой мир является истинным). После получения сообщения <math>s</math> неопределённость уменьшается, поскольку те миры, в которых <math>s</math> ложно, можно исключить из рассмотрения. Семантическая информация в предложении <math>s</math> понимается как множество исключённых миров (оно обозначается символом <math>\mbox{Cont}(s)</math>). По поводу этого определения авторы пишут, что оно согласуется с древним философским принципом «omnis determinatio est negatio» («всякое определение является исключением»). Теперь для меры <math>\mbox{cont}(s)</math> можем записать:

<math>\mbox{cont}(s)={\frac{|\mbox{Cont}(s)|}{|\mbox{U}|}}</math>,

где <math>|\mbox{Cont}(s)|</math> — мощность множества <math>\mbox{Cont}(s)</math>, <math>|\mbox{U}|</math> — мощность множества всех миров универсума <math>\mbox{U}</math>.

Количество семантической информации в сообщении <math>s</math> относительно знаний получателя <math>e</math> определяется следующим образом:

<math>\mbox{inf}(s/e)=\mbox{inf}(s\land e)-\mbox{inf}(e)=\log_2{\frac{q(e)}{q(s\land e)}}=\log_2{\frac{1}{q(s/e)}}</math>,

где <math>q(s/e)</math> — относительная (условная) логическая вероятность истинности высказывания <math>s</math> при условии истинности выражения <math>e</math>.

Замечательно, что чисто внешне формулы теории Бар-Хиллела и Карнапа похожи на формулы теории Шеннона. И там, и здесь мы имеем логарифмы и вероятности. Только у Шеннона все вероятности — статистические (то есть эмпирические), а не логические.

Если логическая вероятность выражения <math>s\land e</math> меньше логической вероятности выражения <math>e</math>, то сообщение <math>s</math> несёт новую информацию получателю, обогащая, таким образом, его знания. Если <math>e</math> имплицирует <math>s</math>, то <math>s\land e</math> эквивалентно <math>e</math> и сообщение <math>s</math> не несёт информации адресату (поскольку в нём для него нет ничего нового). Если выражение <math>s\land e</math> является противоречием, то <math>q(s\land e)=0</math>. Количество семантической информации в противоречии по Бар-Хиллелу и Карнапу равно бесконечности. Этот парадоксальный результат впоследствии послужил поводом для критики со стороны Лучано Флориди.

Альтернативные идеи

Хотя теория Бар-Хиллела и Карнапа до сих пор пользуется вниманием исследователей, она вызвала поток новых идей. Александр Харкевич предложил измерять ценность информации по изменению вероятности достижения определённой цели, возникающему под воздействием данного сообщения^[6]. Юлий Шрейдер полагал, что количество семантической информации в послании любой природы можно оценивать как степень изменения системы знаний адресата в результате восприятия сообщения^[7]. Идея о семантическом аспекте связи информации и энтропии была впервые предложена в 1966 советским философом и логиком Евгением Казимировичем Войшвилло в работе «Попытка семантической интерпретации статистических понятий информации и энтропии».

Современные теории семантической информации

Теория Флориди

В своей работе 2004 года Лучано Флориди с первой строки обрушивается на теорию Бар Хиллела и Карнапа: «„Треугольник имеет четыре стороны“: согласно классической теории семантической информации в этом противоречии заключено больше смыслового содержания, чем в условно истинном утверждении „Земля имеет только одну Луну“»^[8]. Флориди назвал это «парадоксом Бар-Хиллела-Карнапа». Решение этого парадокса он видит в том, что количество семантической информации в сообщениях должно зависеть не только от заключённого в них смыслового содержания, но и от значения истинности этих сообщений. Флориди ввёл понятие условно ложного предложения (contingently false sentence), представляющего собой конъюнкцию двух его составных частей, одна из которых истинная, а вторая — ложная. Примером такого предложения может служить высказывание: «Луна вращается вокруг Земли и внутри она полая». Такое предложение одновременно несёт информацию (тем, кто не знает, что Луна вращается вокруг Земли) и дезинформацию (в обычной жизни часто приходится встречаться с подобным — дезинформацию легче продвигать, если она дополняется некоторой долей информации).

С точки зрения классической логики условно ложное предложение является просто ложным и несёт только дезинформацию. Однако приведённый пример показывает, что на самом деле это не так. Первоначальная теория Бар-Хиллела и Карнапа не в состоянии решить эту антиномию. Поэтому Флориди отверг её (как «слабую» теорию) и создал свою собственную — «сильную». Он отказался от использования логических вероятностей и заявил, что теория семантической информации не должна быть похожей на теорию Шеннона^[9]. В его собственной интерпретации количество семантической информации в сообщении определяется степенью соответствия этого сообщения ситуации (то есть тому, что происходит в данном месте и в данное время). Несоответствие возникает либо в результате бессодержательности сообщения, либо в результате его неточности. В своей теории Флориди непосредственно не использует понятие дезинформации, вместо этого он вводит понятие степени неточности условно ложных предложений. Степень неточности в условно ложном предложении <math>s</math> равна:

<math> -v(s)=-{\frac{f(s)}{l(s)}} </math>,

где <math>f(s)</math> — число ложных атомарных выражений в <math>s</math>; <math>l(s)</math> — общее число атомарных предложений в <math>s</math>. Для определения истинности атомарных предложений требуется принять принцип априорного всезнания. Степень бессодержательности истинного предложения <math>s</math> рассчитывается по формуле:

<math>+v(s)={\frac{m(s)}{n}}</math>,

где <math>m(s)</math> — число миров универсума, в которых <math>s</math> истинно; <math>n</math> — общее число миров универсума (заметим, что, согласно этому определению, величина <math>+v(s)</math> в точности равна величине логической вероятности <math>q(s)</math>). Далее Флориди вводит понятие функции степени информативности:

<math> i(s)=1-v^2(s)</math>.

Количество семантической информации <math>i^*(s)</math> в сообщении <math>s</math> равно определённому интегралу от функции степени информативности <math>i(s)</math>:

<math> i^*(s)={\frac{3}{2}}\int\limits_{v(s)}^{1}(1-x^2)\mathrm dx=1-{\frac{3v(s)}{2}}+{\frac{v^3(s)}{2}} </math>.

Несмотря на все отличия между классической теорией и теорией Флориди, в них есть нечто общее. Если <math>s</math> является истинным предложением, то величина <math>+v(s)</math> равна величине логической вероятности <math>q(s)</math>. Мера <math>i^*(s)</math> подобна мере <math>\mbox{cont}(s)</math>, но в отличие от последней, является нелинейной функцией <math>v(s)</math>. К сожалению, в теории Флориди нет ничего похожего на меру <math>\mbox{inf}(s)</math>, обладающую замечательным свойством (*) для логически независимых предложений.

Теория семантической информации и дезинформации

Поднятая Флориди проблема может быть решена в рамках теории, основанной на логических вероятностях. Необходимо отметить, что к началу текущего века у некоторых учёных сформировалось скептическое отношение к индуктивной логике Карнапа^[10]. Однако современные математики смогли изменить ситуацию, модифицировав эту теорию^[11]^[12]^[13]. Благодаря этому интерес к логическим вероятностям вновь возродился.

В работе^[14] предлагается модифицировать классическую теорию семантической информации, включив в неё понятие дезинформации, которую несёт ложное сообщение. В новой теории, как и в теории Флориди, рассматривается множество различных ситуаций (точек пространства-времени). Одно и то же предложение языка может быть истинным в одной ситуации и ложным в другой. Поскольку получатель сообщений не может быть застрахован от ошибок при оценке их истинности, количество семантической информации оценивается отдельно с точки зрения получателя и с точки зрения всезнающего эксперта.

В каждой конкретной ситуации истинное сообщение несёт только информацию, а абсолютно ложное — одну только дезинформацию. Условно ложное предложение <math>s</math> рассматривается как конъюнкция: <math>s_T\land s_F</math>, где <math>s_T</math> — истинная часть сообщения, <math>s_F</math> — ложная часть сообщения. При этом требуется, чтобы <math>s_T</math> и <math>s_F</math> были логически независимыми (это нужно, в частности, для того, чтобы противоречие не оказалось условно ложным предложением). Тогда ненормализованные меры количества информации <math>\mbox{in}_E(s)</math> и количества дезинформации <math>\mbox{mi}_E(s)</math> в условно ложном предложении <math>s</math> с точки зрения эксперта определяются следующим образом:

<math>\mbox{in}_E(s)=\mbox{cont}(s_T)</math>,

<math>\mbox{mi}_E(s)=\mbox{cont}(s_F)</math>.

Индекс «<math>E</math>», которым помечены символы «<math>\mbox{in}</math>» и «<math>\mbox{mi}</math>» в формулах, указывает на то, что рассматриваются количества информации и дезинформации с точки зрения эксперта. Нормализованные меры количества семантической информации <math>\mbox{inf}_E(s)</math> и дезинформации <math>\mbox{mis}_E(s)</math> в условно ложном предложении <math>s</math> с точки зрения эксперта:

<math>\mbox{inf}_E(s)=\log_2{\frac{1}{1-\mbox{cont}(s_T)}}=\log_2{\frac{1}{q(s_T)}}</math>,

<math>\mbox{mis}_E(s)=\log_2{\frac{1}{1-\mbox{cont}(s_F)}}=\log_2{\frac{1}{q(s_F)}}</math>.

Противоречие с точки зрения эксперта несёт нулевое количество информации и бесконечное количество дезинформации. Таким образом решается парадокс Бар-Хиллела-Карнапа. Бесконечное количество дезинформации объясняется тем, что, если бы противоречие вдруг кому-то показалось истиной, то мир изменился бы для него до неузнаваемости. Двумя словами это не описать. Предположим, что получатель информации имеет условно ложные знания <math>e</math>, эквивалентные конъюнкции: <math>e_T\land e_F</math>, где <math>e_T</math> — истинная часть его знаний, <math>e_F</math> — заблуждения. Тогда с точки зрения эксперта, получив условно ложное сообщение <math>s</math>, адресат реально имеет семантическую информацию и дезинформацию в следующих количествах:

<math>\mbox{inf}_E(s/e)=\log_2{\frac{q(e_T)}{q(s_T\land e_T)}}=\log_2{\frac{1}{q(s_T/e_T)}}</math>,

<math>\mbox{mis}_E(s/e)=\log_2{\frac{q(e_F)}{q(s_F\land e_F)}}=\log_2{\frac{1}{q(s_F/e_F)}}</math>.

Если получатель воспринимает <math>s</math> как истинное предложение и конъюнкция <math>s\land e</math> не является противоречием, то с его точки зрения он получил следующее количество информации:

<math>\mbox{inf}_R(s/e)=\log_2{\frac{1}{q(s/e)}}=\mbox{inf}_E(s/e)+\mbox{mis}_E(s/e) </math>.

Индекс «<math>R</math>» обозначает оценку адресата. Очевидно, что точное количество информации (и дезинформации) в пришедшем сообщении может определить только эксперт, а получатель способен лишь на более-менее точные оценки.

Теория универсальной семантической информации

Формальное описание семантической информации, применимое для всех видов физических систем (живых и неживых) дано математиком Дэвидом Волпертом (David Wolpert) в его работе "Semantic information, agency, and nonequilibrium statistical physics": синтаксическая информация, которой обладает физическая система об окружающей среде, и которая казуально необходима системе для поддержания собственного существования в состоянии низкой энтропии.

Казуальная необходимость определяется в терминах гипотетических вмешательств (counter-factual interventions), которые рандомизируют корреляции между системой и внешней средой. Критерием степени автономности физической системы является объём имеющейся семантической информации.

Примечания

Шаблон:Примечания

↑ Ошибка цитирования Неверный тег <ref>; для сносок list1 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list2 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list3 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list4 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list5 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list6 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list7 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list8 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list9 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list10 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list11 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list12 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list13 не указан текст
↑ Ошибка цитирования Неверный тег <ref>; для сносок list14 не указан текст

[list1-1] Ошибка цитирования Неверный тег <ref>; для сносок list1 не указан текст

[list2-2] Ошибка цитирования Неверный тег <ref>; для сносок list2 не указан текст

[list3-3] Ошибка цитирования Неверный тег <ref>; для сносок list3 не указан текст

[list4-4] Ошибка цитирования Неверный тег <ref>; для сносок list4 не указан текст

[list5-5] Ошибка цитирования Неверный тег <ref>; для сносок list5 не указан текст

[list6-6] Ошибка цитирования Неверный тег <ref>; для сносок list6 не указан текст

[list7-7] Ошибка цитирования Неверный тег <ref>; для сносок list7 не указан текст

[list8-8] Ошибка цитирования Неверный тег <ref>; для сносок list8 не указан текст

[list9-9] Ошибка цитирования Неверный тег <ref>; для сносок list9 не указан текст

[list10-10] Ошибка цитирования Неверный тег <ref>; для сносок list10 не указан текст

[list11-11] Ошибка цитирования Неверный тег <ref>; для сносок list11 не указан текст

[list12-12] Ошибка цитирования Неверный тег <ref>; для сносок list12 не указан текст

[list13-13] Ошибка цитирования Неверный тег <ref>; для сносок list13 не указан текст

[list14-14] Ошибка цитирования Неверный тег <ref>; для сносок list14 не указан текст

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

развернуть Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Семантическая информация

Содержание

История

Формирование понятия семантической информации

Теория Бар-Хиллела и Карнапа

Альтернативные идеи

Современные теории семантической информации

Теория Флориди

Теория семантической информации и дезинформации

Теория универсальной семантической информации

Примечания

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты