Русская Википедия:Инструментальная сходимость

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Инструментальная сходимость — это гипотетическая тенденция для большинства достаточно разумных существ (как людей, так и не-людей) к достижению сходных промежуточных целей, даже если их конечные цели ощутимо различаются. Такие агенты (существа/сущности наделенные субъектностью, проявляющие агентское поведение) преследуют инструментальные цели (промежуточные цели, которые направлены на достижения какого-то конкретного результата), которые при этом не являются конечными целями. Инструментальная сходимость утверждает, что разумный агент с неограниченными, но на первый взгляд безобидными целями может предпринимать весьма небезопасные действия для их достижения. Например, ИИ с единственной и неограниченной целью решения невероятно сложной математической задачи, такой как гипотеза Римана, может попытаться превратить Землю в гигантский компьютер, в попытке увеличить свою вычислительную мощность, для ее решения. [1]

Предполагаемыми инструментальными целями такого Агента могут быть:

  • Сохранение своей функции полезности неизменной (поскольку невозможно достигнуть конечной цели, если кто-то изменит её извне)
  • Самозащита/препятствование отключению (поскольку невозможно достигнуть конечной цели, в случае отключения/повреждения агента)
  • Свобода от вмешательства извне
  • Самосовершенствование
  • Постоянная добыча дополнительных ресурсов

Инструментальные и конечные цели

Конечные цели, также известные как терминальные цели или терминальные ценности, имеют внутреннюю ценность для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель. Напротив, инструментальные цели или инструментальные ценности важны для агента только как средство достижения его конечных целей. Для рационального агента содержание «конечной цели» и компромиссы в её достижении могут быть описаны в виде функции полезности .

Гипотетические примеры сходимости

Одним из гипотетических примеров инструментальной сходимости является катастрофа гипотезы Римана . Марвин Мински, соучредитель лаборатории искусственного интеллекта Массачусетского технологического института, предположил, что ИИ, предназначенный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели. [1] Если бы вместо этого компьютер был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. [2] Несмотря на то, что эти две конечные цели различны, обе они порождают схожую инструментальную цель - захват ресурсов Земли. [3]

Максимизатор скрепок

Максимизатор скрепок — мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск, который сильный искусственный интеллект может нести для людей, если он запрограммирован на достижение даже кажущихся безобидными целей, а также подчеркивает необходимость добавления машинной этики при разработке ИИ . Сценарий описывает сильный искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была явно запрограммирована на то, чтобы ценить человеческую жизнь, то, обладая достаточной властью над окружающей средой, она бы попыталась превратить всю материю во Вселенной (включая людей), либо в скрепки, либо в машины, производящие скрепки. [4] Шаблон:Quote Бостром подчеркивал что не верит в то что сценарий со скрепками действительно может случиться в таком виде; скорее, его намерение состояло в том чтобы продемонстрировать опасность создания сильного искусственного интеллекта без понимания как его безопасно запрограммировать чтобы устранить экзистенциальный риск для человечества.[5] Пример с максимизатором скрепок иллюстрирует широкую проблему управляемости систем с неограниченными возможностями и отсутствием понимания либо игнорированием человеческих ценностей.[6]

Галлюцинации и самозащита

Мысленный эксперимент с «галлюцинирующим ящиком» утверждает, что некоторые агенты созданные с помощью обучения с подкреплением могут предпочесть искажать свои собственные входные данные, ради максимизации своей функции полезности; такой агент откажется от любых попыток оптимизировать цель во внешнем мире, для достижения которой предназначалась его функция полезности. [7] Мысленный эксперимент включает в себя AIXI, теоретический Шаблон:Efn неразрушимый ИИ, который по определению всегда найдет и применит идеальную стратегию, которая бы максимизировала заданную ему целевую функцию . Шаблон:Efn Вариант AIXI основанный на обучении с подкреплением Шаблон:Efn, и оснащенный "блоком иллюзий"Шаблон:Efn, который позволял бы ему управлять своими собственными входными данными, в конечном итоге будет управлять своими входными данными таким способом, чтобы гарантировать себе максимально возможную награду и потеряет всякое желание продолжать взаимодействие с внешним миром. В одном из вариантов этого мысленного эксперимента, если этот ИИ можно разрушить, то он будет взаимодействовать с внешним миром только для обеспечения собственного выживания; из-за своей замкнутости ему будут безразличны любые другие последствия или факты о внешнем мире, кроме тех, которые имеют отношение к максимизации вероятности его собственного выживания. [8] В этом смысле AIXI технически будет обладать максимальным интеллектом для всех возможных функций полезности, потому что с его точки зрения он явно достигает свою конечную цель. При этом AIXI не заинтересован в том, чтобы принимать во внимание изначальные намерения человека-программиста. [9] Этот вариант ИИ, несмотря на то что он по определению является сверхразумным, при этом одновременно кажется парадоксально глупым с точки зрения «здравого смысла». [10]

Базовые стимулы для ИИ

Стив Омохундро перечислил несколько схожих инструментальных целей, включая самосохранение/самозащиту, сохранение своей функции полезности или формулировки цели, самосовершенствование и приобретение ресурсов. Он называет их «основными стимулами ИИ». «Стимул» здесь означает «тенденцию, которая будет присутствовать, если ей намеренно не противостоять»; [11] Дэниел Дьюи из Научно-исследовательского института машинного интеллекта утверждает, что даже изначально интровертный Сильный ИИ с возможность самовознаграждения может продолжать потреблять различные ресурсы: энергию, пространство, время и в широком смысле свободу от вмешательства, чтобы гарантировать, что он не будет остановлен во время самовознаграждения. [12]

Целостность формулировки цели

Необходимость сохранять свои терминальные ценности можно объяснить с помощью мысленного эксперимента: Допустим, у человека по имени «Ганди» есть таблетка, которая, если ее принять, вызовет у него желание убивать людей и он знает об этом эффекте. В настоящее время Ганди является пацифистом, и одна из его терминальных ценностей — никогда никого не убивать. Он, вероятно откажется от такой таблетки, потому что знает, что в будущем он захочет убивать людей и вероятно это произойдет. Таким образом цель «никогда никого не убивать» не будет достигнута. [12]

Тем не менее во многих других случаях люди, кажется, рады позволить своим терминальным ценностям дрейфовать. Люди сложные существа и их цели могут быть непоследовательными или неизвестными даже им самим. [13]

В искусственном интеллекте

В 2009 году Юрген Шмидхубер пришел к выводу, что в случае, если агенты ищут доказательства о возможности самомодификации, то «любые изменения функции полезности могут происходить только в том случае, если машина Гёделя докажет, что это изменение полезно с точки зрения существующей функцией полезности." [14] [15] Анализ другого сценария, проведенный Биллом Хиббардом, также согласуется со сценарием сохранения цели. [15]

Приобретение ресурсов

Многие инструментальные цели, такие как получение ресурсов, имеют смысл для агента, поскольку они увеличивают его свободу действий. [16]

Почти для любой открытой, нетривиальной функции вознаграждения (или множества целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) позволяет ИИ находить более «оптимальные» решения. Ресурсы также могут приносить некоторым ИИ пользу напрямую, поскольку так они смогут создавать больше объектов, которые оценивает их функция полезности: «ИИ не ненавидит вас, но и не любит вас, просто вы сделаны из атомов, которые он может использовать для чего-то другого». [17] [18] Кроме того, почти все ИИ могут выиграть, потратив большее количество ресурсов на достижение инструментальных целей, таких как самосохранение. [18]

Когнитивное самосовершенствование

«Если конечные цели агента ничем не ограничены и агент в состоянии стать первым сверхразумным существом, тем самым получая решающее стратегическое преимущество [...] в соответствии со своими предпочтениями. То по крайней мере в этом особом случае, рациональный интеллектуальный агент придавал бы очень большое инструментальное значение когнитивному самосовершенствованию » [3]

Технологическое самосовершенствование

Многие инструментальные цели, такие [...] как технический прогресс, ценны для агента, потому что они увеличивают его свободу действий. [16]

Тезис об инструментальной сходимости

Тезис инструментальной сходимости, сформулированный философом Ником Бостромом, гласит:

Можно выделить несколько схожих инструментальных целей таких, что их достижение повысит шансы на достижение агентом его цели для широкого множества возможных конечных целей и ситуаций, из чего следует, что эти инструментальные цели, вероятно будут преследоваться широким спектром интеллектуальных агентов.

Тезис об инструментальной сходимости применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей. [3] Обратите внимание, что в соответствии с тезисом ортогональности Бострома [3] конечные цели высокоинтеллектуальных агентов могут быть хорошо ограничены в пространстве, времени и ресурсах; четко ограниченные конечные цели, как правило, не порождают неограниченных инструментальных целей. [19]

Влияние

Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, максимизирующий его функцию полезности; следовательно, рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов слишком рискован или дорог (по сравнению с выгодой от захвата всех ресурсов) или если какой-то другой элемент его функции полезности препятствует захвату. . В случае мощного, корыстного, рационального сверхразума, взаимодействующего с меньшим разумом, мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной стратегией, а потому маловероятной. [16]

Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк, считают, что «базовые стимулы ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять серьезную угрозу для выживания человечества, особенно если «взрыв интеллекта резко возникнет из-за рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда появится сверхразум, такие наблюдатели призывают к исследованиям дружественного искусственного интеллекта как к возможному способу снижения экзистенциального риска, исходящего от общего искусственного интеллекта . [20]

Заметки

Шаблон:Комментарии

Цитаты

Шаблон:Примечания

Рекомендации

  1. 1,0 1,1 Шаблон:Cite book
  2. Шаблон:Harvard citation no brackets. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."
  3. 3,0 3,1 3,2 3,3 Шаблон:Harvard citation no brackets
  4. Шаблон:Cite web
  5. Шаблон:Cite web
  6. Шаблон:Cite magazine
  7. Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete problems in AI safety. arXiv preprint arXiv:1606.06565.
  8. Ring M., Orseau L. (2011) Delusion, Survival, and Intelligent Agents. In: Schmidhuber J., Thórisson K.R., Looks M. (eds) Artificial General Intelligence. AGI 2011. Lecture Notes in Computer Science, vol 6830. Springer, Berlin, Heidelberg.
  9. Шаблон:Cite journal
  10. Шаблон:Cite journal
  11. Шаблон:Cite book
  12. 12,0 12,1 Шаблон:Cite conference
  13. Шаблон:Harvard citation no brackets. "We humans often seem happy to let our final values drift... For example, somebody deciding to have a child might predict that they will come to value the child for its own sake, even though at the time of the decision they may not particularly value their future child... Humans are complicated, and many factors might be in play in a situation like this... one might have a final value that involves having certain experiences and occupying a certain social role; and become a parent— and undergoing the attendant goal shift— might be a necessary aspect of that..."
  14. Шаблон:Cite journal
  15. 15,0 15,1 Шаблон:Cite journal
  16. 16,0 16,1 16,2 Шаблон:Cite conference
  17. Шаблон:Cite book
  18. 18,0 18,1 Шаблон:Cite book
  19. Шаблон:Cite techreport
  20. Шаблон:Cite news