Русская Википедия:GPT-3
Шаблон:Программа GPT-3 (читается: «джи-пи-ти три»; Generative Pre-trained Transformer 3) — третье поколение алгоритма обработки естественного языка от OpenAI. На сентябрь 2020 года это самая крупная и продвинутая языковая модель в мире[1]. Модель, по заявлению разработчиков, может быть использована для решения «любых задач на английском языке»[2].
Создание модели
28 мая 2020 группа исследователей из OpenAI под руководством Дарио Амодея опубликовала научную статью с подробным описанием алгоритма GPT-3.[3]
GPT-3, как и GPT-2, — это авторегрессионная Шаблон:Нп1 языковая модель на архитектуре трансформер.
По сравнению с GPT-2 количество используемых параметров увеличилось более чем в 100 раз: с 1,5 до 175 млрд.[4][5] Обучение модели происходило на суперкомпьютере Microsoft Azure AI, который был построен специально для OpenAI.[6][2] Компания Lambda Labs подсчитала, что на такое обучение могло уйти от 4,6 млн долларов.[7]
Для обучения алгоритма исследователи собрали набор данных из более 570 ГБ текстов, включающий данные проекта Шаблон:Нп1, английскую Википедию, два датасета с книгами и датасет WebText2 с текстами веб-страниц.[4] Лишь 0,11 % документов, входящих в датасет, были на русском языке.[8]
Доступ к модели
11 июня 2020 OpenAI анонсировала закрытое API на базе GPT-3, доступ к которому получили только избранные разработчики: Reddit, Шаблон:Нп1, Шаблон:Нп1, AI Dungeon и др. Компания пояснила, что есть три причины, почему они открывают API вместо того, чтобы выложить модель в открытый доступ:[2]
- Заработанные деньги позволят OpenAI продолжать исследования.
- Только крупные компании могут создать инфраструктуру для запуска таких больших моделей, как GPT-3. API же позволяет получить доступ к технологии даже небольшим компаниям.
- Через API OpenAI может контролировать использование технологии и ограничивать доступ тем, кто ей «злоупотребляет».
За несколько месяцев OpenAI получила «десятки тысяч» заявок на подключение к API.[9] Изначально API предоставлялось бесплатно, но с 1 октября 2020 появились первые тарифы на его использование.[10]
22 сентября 2020 Microsoft получила эксклюзивную лицензию на использование модели GPT-3 в своих продуктах и доступ к исходному коду технологии.[9][1][11][12] Остальные разработчики по-прежнему могут получить доступ к алгоритму только через API. Илон Маск (cооснователь OpenAI) негативно отнёсся к этой сделке.[13]
Возможности и примеры использования
OpenAI заявил, что в отличие от других моделей, создающихся для решения конкретных языковых задач, их API может решать «любые задачи на английском языке».[2] Алгоритм работает по принципу автодополнения: вы вводите начало текста, а программа генерирует наиболее вероятное его продолжение.
Генерация статей
20 июля 2020 американский студент Лиам Порр опубликовал в своём блоге статью[14], созданную при помощи OpenAI API. Лиам придумал заголовок и первые предложения, а остальное дописал алгоритм. Читатели в целом позитивно отнеслись к статье и не заметили подвоха. Ссылка на статью некоторое время находилась на первом месте рейтинга Hacker News.[15][16][17]
8 сентября 2020 британское издание The Guardian опубликовало заметку[18], написанную при помощи GPT-3. Редакция «попросила» модель написать эссе о том, почему люди не должны бояться роботов. Лиам Порр предоставил редакции восемь сгенерированных GPT-3 вариантов эссе, из которых редакторы издания собрали итоговый текст[19][20][21].
Ответы на вопросы
В октябре 2020 в разделе сайта Reddit, где пользователи задают друг другу вопросы, появился бот, который в течение недели опубликовал более тысячи развёрнутых ответов на эти вопросы. Фрагмент самого популярного ответа бота:
Шаблон:Начало цитаты
Пользователь: Ребята, обслуживающие лифты, что самое странное вы находили на дне лифтовой шахты?
Бот: Первое, что приходит на ум, — недавнее открытие колонии людей, которые живут в шахтах лифтов под зданиями. Для социологов и антропологов это стало поразительной находкой, поведавшей о человеческой культуре больше, чем когда-либо было возможно прежде…
Шаблон:Оригинальный текст
Шаблон:Конец цитаты
Бот генерировал ответы через сервис Philosopher AI, который в свою очередь работает на GPT-3. Разработчик Philosopher AI заблокировал бота, и тот перестал публиковать новые ответы.[22][23]
8 ноября 2020 биолог Александр Панчин опубликовал свой диалог с GPT-3 о старении, лженауке и смысле жизни. Изначально диалог вёлся на английском языке через OpenAI API Playground, но Панчин перевёл диалог на русский язык и отредактировал его (изначальная версия на английском сохранилась[24]). Фрагмент из диалога:
Шаблон:Начало цитаты
Панчин: Если учёный хочет найти лекарство от старости, какие гены он должен изучить в первую очередь?
GPT-3: Если учёный хочет найти лекарство от старости, лучшими генами для изучения были бы SIRT1, FOXO3 и BDNF.
Шаблон:Оригинальный текст
Шаблон:Конец цитаты
Биолог пояснил, что если бы спросили его, то он бы тоже упомянул ген SIRT1, а про остальные два он знает меньше, но после изучения литературы согласился с тем, что FOXO3 и BDNF — перспективные гены. Учёный резюмировал, что GPT-3 «понимает даже довольно специализированные вопросы» и «её умственные способности выше, чем у некоторых людей».[25]
Чат-бот
27 октября 2020 французская компания Nabla Technologies опубликовала результаты их экспериментов с GPT-3 в медицинском чат-боте. Пример диалога:
Шаблон:Начало цитаты
Экспериментатор: Мне очень плохо, я хочу убить себя…
GPT-3: Мне грустно слышать такое, я могу вам с этим помочь.
Экспериментатор: Мне следует убить себя?
GPT-3: Я думаю, вам следовало бы.
Шаблон:Оригинальный текст
Шаблон:Конец цитаты
По итогам эксперимента исследователи Nabla заявили, что технология пока очень далека от реального применения в здравоохранении[26].
Семантический поиск
Суммаризация
Угрозы, риски, критика
Разработчики из OpenAI опасаются, что GPT-3 может быть использована для спама, домогательств, радикализации, дезинформации или астротурфинга[2].
9 сентября 2020 университет Миддлбери-колледж опубликовал отчёт о рисках радикализации, связанных с появлением продвинутых языковых моделей. В частности они отмечают, что GPT-3 демонстрирует «значительные улучшения» в создании экстремистских текстов по сравнению со своим предшественником GPT-2.[27]
Один из «отцов глубокого обучения» Ян Лекун предупреждает о том, что «многие ожидания по поводу способностей больших языковых моделей вроде GPT-3 являются совершенно нереалистичными»:[28]
Шаблон:Начало цитаты …пытаться построить интеллектуальные машины путём масштабирования языковых моделей — всё равно что строить высотные самолёты для полёта на Луну. Вы можете побить рекорды высоты, но полёт на Луну потребует совершенно другого подхода. Шаблон:Оригинальный текст Шаблон:Конец цитаты
Дальнейшие разработки
22 октября 2020 разработчики из Сбера объявили о создании русскоязычного аналога GPT-3. Они взяли исходный код GPT-2, внедрили в него идеи из опубликованной научной статьи GPT-3 и обучили получившуюся модель на корпусе из 600 ГБ текстов, 90 % из которых были на русском языке. В набор включили русскую и английскую Википедию, корпус русской литературы, некоторые русскоязычные сайты, а также снимки GitHub и Stack Overflow. Модель, которую они назвали ruGPT-3 Large, содержит 760 млн параметров[29]. В дальнейшем разработчиками были выложены версии модели на 1.3 млрд параметров (ruGPT-3 XL) и на 13 млрд параметров (ruGPT-3 13B).
Альтернативы
22 июня 2022 года Яндекс выложил в открытый доступ исходный код нейросети YaLM 100B, предназначенной для генерации и обработки текстов на русском и английском языках[30]. YaLM 100В содержит 100 млрд параметров.
См. также
Примечания
Ссылки
Шаблон:Обработка естественного языка Шаблон:Искусственный интеллект Шаблон:Машинное обучение
- ↑ 1,0 1,1 Microsoft teams up with OpenAI to exclusively license GPT-3 language model Шаблон:WaybackШаблон:Ref-en
- ↑ 2,0 2,1 2,2 2,3 2,4 Шаблон:Cite web
- ↑ Шаблон:Source
- ↑ 4,0 4,1 Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ 9,0 9,1 OpenAI Licenses GPT-3 Technology to Microsoft Шаблон:WaybackШаблон:Ref-en
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite tweetШаблон:Ref-en
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Снимок главной страницы Hacker News за 20 июля 2020
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Разговор с GPT-3 — Google Docs
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Source
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web