Русская Википедия:Обучение с подкреплением на основе отзывов людей

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Обучение с подкреплением на основе отзывов (RLHF; также обучение с подкреплением на основе человеческих предпочтений) — метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением (RL)[1][2]. RLHF может улучшить надёжность и исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена[3][4][5].

Человеческая обратная связь собирается путём просьбы к людям ранжировать случаи поведения агента[6][7][8]. Затем эти рейтинги можно использовать для оценки результатов, например, с помощью рейтинговой системы Эло[2].

RLHF применялся к различным областям обработки естественного языка, таким как диалоговые агенты, автоматическое реферирование и понимание естественного языка[9][10]. Регулярное обучение с подкреплением, когда агенты учатся на своих собственных действиях на основе функции вознаграждения, трудно применить к задачам обработки естественного языка, потому что вознаграждение часто нелегко определить или измерить, особенно при решении сложных задач, связанных с человеческими ценностями или предпочтениями. RLHF может позволить языковым моделям давать ответы, соответствующие этим сложным значениям, генерировать более подробные ответы и отклонять вопросы, которые либо неуместны, либо выходят за рамки области знаний модели[11]. Некоторыми примерами языковых моделей, обученных с помощью RLHF, являются ChatGPT от OpenAI и его предшественник InstructGPT[7][12][13][14], а также Sparrow от DeepMind[15][16][17].

RLHF также применялся в других областях, таких как разработка ботов для видеоигр. Например, OpenAI и DeepMind обучили агентов играть в игры Atari на основе человеческих предпочтений[18][19]. Агенты продемонстрировали высокую производительность во многих протестированных средах, часто превосходя возможности человека[20].

Проблемы и ограничения

Одной из основных проблем RLHF является масштабируемость и стоимость обратной связи с человеком, которая может быть медленной и дорогой по сравнению с неконтролируемым обучением. Качество и согласованность обратной связи с людьми также могут варьироваться в зависимости от задачи, интерфейса и индивидуальных предпочтений людей. Даже когда человеческая обратная связь возможна, модели RLHF могут по-прежнему демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, или использовать лазейки в модели вознаграждения, что выявляет проблемы согласования и надёжности[21].

Примечания

Шаблон:Примечания