Русская Википедия:Обучение с подкреплением на основе отзывов людей

Обучение с подкреплением на основе отзывов (RLHF; также обучение с подкреплением на основе человеческих предпочтений) — метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением (RL)^[1]^[2]. RLHF может улучшить надёжность и исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена^[3]^[4]^[5].

Человеческая обратная связь собирается путём просьбы к людям ранжировать случаи поведения агента^[6]^[7]^[8]. Затем эти рейтинги можно использовать для оценки результатов, например, с помощью рейтинговой системы Эло^[2].

RLHF применялся к различным областям обработки естественного языка, таким как диалоговые агенты, автоматическое реферирование и понимание естественного языка^[9]^[10]. Регулярное обучение с подкреплением, когда агенты учатся на своих собственных действиях на основе функции вознаграждения, трудно применить к задачам обработки естественного языка, потому что вознаграждение часто нелегко определить или измерить, особенно при решении сложных задач, связанных с человеческими ценностями или предпочтениями. RLHF может позволить языковым моделям давать ответы, соответствующие этим сложным значениям, генерировать более подробные ответы и отклонять вопросы, которые либо неуместны, либо выходят за рамки области знаний модели^[11]. Некоторыми примерами языковых моделей, обученных с помощью RLHF, являются ChatGPT от OpenAI и его предшественник InstructGPT^[7]^[12]^[13]^[14], а также Sparrow от DeepMind^[15]^[16]^[17].

RLHF также применялся в других областях, таких как разработка ботов для видеоигр. Например, OpenAI и DeepMind обучили агентов играть в игры Atari на основе человеческих предпочтений^[18]^[19]. Агенты продемонстрировали высокую производительность во многих протестированных средах, часто превосходя возможности человека^[20].

Проблемы и ограничения

Одной из основных проблем RLHF является масштабируемость и стоимость обратной связи с человеком, которая может быть медленной и дорогой по сравнению с неконтролируемым обучением. Качество и согласованность обратной связи с людьми также могут варьироваться в зависимости от задачи, интерфейса и индивидуальных предпочтений людей. Даже когда человеческая обратная связь возможна, модели RLHF могут по-прежнему демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, или использовать лазейки в модели вознаграждения, что выявляет проблемы согласования и надёжности^[21].

Примечания

Шаблон:Примечания

[1] Шаблон:Cite journal

[huggingface-2] 2,0 ^2,1 Шаблон:Cite web

[3] Шаблон:Cite journal

[4] Шаблон:Cite journal

[5] Шаблон:Cite journal

[6] Шаблон:Cite journal

[ars-7] 7,0 ^7,1 Шаблон:Cite web

[8] Шаблон:Cite web

[9] Шаблон:Cite journal

[10] Шаблон:Cite journal

[11] Шаблон:Cite web

[12] Шаблон:Cite web

[13] Шаблон:Cite web

[14] Шаблон:Cite web

[15] Шаблон:Cite journal

[16] Шаблон:Cite web

[17] Шаблон:Cite web

[18] Шаблон:Cite web

[19] Шаблон:Cite web

[20] Шаблон:Cite journal

[21] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Обучение с подкреплением на основе отзывов людей

Проблемы и ограничения

Примечания

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты