Русская Википедия:Generative pre-trained transformer

Оригинальная языковая модель GPT

Generative pre-trained transformer или GPT (Шаблон:Lang-ru) — это тип нейронных языковых моделей, впервые представленных компанией OpenAI, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

Языковые модели GPT от OpenAI

Шаблон:Further 11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный Предобученный Трансформер (GPT)^[1]. До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей^[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках^[2]. Предложенный OpenAI подход Шаблон:Не переведено 3 обучения на основе модели GPT включает два этапа:

несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
собственное Шаблон:Не переведено 3 «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.

Версии GPT от OpenAI
	Использование	Архитектура	Количество параметров	Тренировочные данные	Дата выпуска
GPT-1	Общее	12-уровневый декодер-трансформер с 12 головками (без кодировщика), за которым следует линейный софтмакс.	117 миллионов	BookCorpus: 4,5 ГБ текста из 7000 неизданных книг разных жанров.^[3]	11 июня 2018^[4]
Шаблон:Не переведено 3	Общее	GPT-1, но с изменённой Шаблон:Не переведено 3.	1.5 миллиардов (Шаблон:Рост1273000 %)	WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц за которые проголосовали на Reddit.	14 февраля 2019
GPT-3	Общее	GPT-2, но с изменениями для возможности масштабирования в большем объёме.	175 миллиардов (Шаблон:Рост11566 %)	570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также BookCorpus.	11 июня 2020^[5]
InstructGPT (GPT-3.5)	Разговор	GPT-3, Шаблон:Не переведено 3 для выполнения инструкций с использованием обратной связи с человеком.	175 миллиардов^[6]	Шаблон:Dunno	4 марта 2022
ChatGPT	Диалог	Использует GPT-3.5 и Шаблон:Не переведено 3 (подход к Шаблон:Не переведено 3) как с обучением с учителем, так и с RLHF (Обучение с подкреплением на основе отзывов людей).	Шаблон:Dunno	Шаблон:Dunno	30 ноября 2022
GPT-4	Общее	Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.^[7]	Шаблон:Dunno	Шаблон:Dunno	14 марта 2023

Другие (производные) модели GPT

После того, как OpenAI выпустила свою модель GPT-3, EleutherAI выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом, и её модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.

Основные GPT от других разработчиков
	Использование	Архитектура	Количество параметров	Тренировочные данные	Дата выпуска	Разработчик
GPT-J	Общее	Параллельный декодер	6 миллиардов	Набор данных объёмом 825 ГБ с открытым исходным кодом (называемый «кучей»)	9 июня 2021	EleutherAI
BLOOM	Общее	Трансформер только для декодера	176 миллиардов	Данные 46 естественных языков и 13 языков программирования; Всего 1,6 терабайт предварительно обработанного текста.	6 июля 2022	Hugging Face
BioGPT	Биомедицинский контент^[8]^[9]	Как в GPT-2 Medium (24 слоев, 16 головок)	347 миллионов	Непустые записи из PubMed (всего 1,5 миллиона).	24 сентября 2022	Microsoft

Примечания

Шаблон:Примечания

Шаблон:Обработка естественного языка Шаблон:Искусственный интеллект Шаблон:Машинное обучение

[gpt1paper-1] Шаблон:Cite web

[tsvetkov-2] 2,0 ^2,1 Шаблон:Cite web

[3] Шаблон:Cite conference

[gpt1paper2-4] Шаблон:Cite web

[5] Шаблон:Cite web

[6] Шаблон:Cite journal

[7] Шаблон:Cite web

[pmid36156661-8] Шаблон:Cite journal

[9] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Generative pre-trained transformer

Языковые модели GPT от OpenAI

Другие (производные) модели GPT

Примечания

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты