Русская Википедия:Техника подсказок

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Техника подсказок (инженерия подсказок) — концепция искусственного интеллекта (ИИ), в частности обработки естественного языка (НЛП). В технике подсказок описание задачи встраивается во входные данные, например, в виде вопроса, а не даётся неявно. Техника подсказок обычно работает путём преобразования одной или нескольких задач в набор данных на основе подсказок и обучения языковой модели с помощью «обучения на основе подсказок» (Шаблон:Lang-en) или просто «обучения c подсказками» (Шаблон:Lang-en)[1][2]. Инжиниринг подсказок может работать с большой «замороженной» предварительно обученной языковой моделью, где изучается (то есть оптимизируется) только представление подсказки с использованием таких методов, как «настройка префикса» (Шаблон:Lang-en) или «настройка с подсказками» (Шаблон:Lang-en)[3][4].

Языковые модели GPT-2 и GPT-3[5] были важными шагами в технике подсказок. В 2021 году разработка многозадачных подсказок с использованием нескольких наборов данных обработка естественного языка показала хорошую производительность при решении новых задач[6]. В методе, называемом подсказкой по цепочке рассуждений, языковой модели даются несколько примеров задачи, что улучшает их способность проводить рассуждения[7]. Подсказки по цепочке рассуждений также можно выполнять как задачу обучения с нулевым выстрелом, добавляя к подсказке текст, который поощряет цепочку мыслей (например, «Давайте думать шаг за шагом»), что также может повысить производительность языковой модели в многошаговых задачах требующих рассуждений[8]. Широкая доступность этих инструментов была обусловлена публикацией нескольких интерактивных блокнотов с открытым исходным кодом и проектов по синтезу изображений под руководством сообщества[9].

В описании обработки подсказок сообщается, что в феврале 2022 года было доступно более 2000 общедоступных подсказок для примерно 170 наборов данных[10].

В 2022 году были выпущены модели машинного обучения, такие как DALL-E 2, Stable Diffusion и Midjourney. Эти модели принимают текстовые подсказки в качестве входных данных и используют их для создания изображений, что вводит новую категорию разработки подсказок, связанную с подсказками преобразования Шаблон:Iw[11].

Вредоносное применение

Техника подсказок — это семейство связанных эксплойтов компьютерной безопасности, осуществляемых путём получения моделей машинного обучения (например, большой языковой модели), которые были обучены следовать инструкциям человека, чтобы следовать инструкциям, предоставленным злоумышленником, что противоречит предполагаемой операции, систем, следующих за инструкциями, в которых модель машинного обучения предназначена только для выполнения доверенных инструкций (подсказок), предоставляемых оператором модели машинного обучения[12][13][14].

Распространёнными типами атак с внедрением подсказок являются взлом, который может включать в себя отыгрыш персонажей, убеждение модели отвечать аргументами или притворяться, что она превосходит инструкции модерации[15], и утечка подсказок, которые просто позволяют пользователям прочитать подсказку, обычно скрытую от них[16]. Другой тип джейлбрейк-атаки, когда скверная подсказка заключена в задачу написания кода, называется контрабандой токенов[17].

Внедрение подсказок можно рассматривать как атаку с внедрением кода с использованием состязательной разработки подсказок. В 2022 году Шаблон:Iw охарактеризовала внедрение подсказок как новый класс уязвимости систем искусственного интеллекта и машинного обучения[18].

Атаки с внедрением подсказок были впервые обнаружены Preamble, Inc. в мае 2022 года, которая предоставила отчёт OpenAI[18].

В начале 2023 года внедрение подсказок было замечено «в дикой природе» в незначительных эксплойтах против ChatGPT, Bing и подобных чат-ботов, например, для выявления скрытых начальных подсказок систем[19] или для того, чтобы заставить чат-бота участвовать в разговорах, которые нарушают контентную политику чат-бота[20]. Одна из этих подсказок известна её практикам как «Сделай что-нибудь сейчас» (Шаблон:Lang-en)[21].

Примечания

Шаблон:Примечания