Русская Википедия:DALL-E

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Программа

DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft[1], способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке[2][3]. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей[4][5][6][7].

История

Нейронная сеть DALL-E начала разрабатываться в 2018 году. В 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта[1]. Первая версия нейросети была представлена сообществу 5 января 2021 года[4].

6 апреля 2022 года была анонсирована DALL-E 2[3][8]. В новой версии программы были доработаны алгоритмы, позволяющие создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки во время работы приложения[9]. Пример работы нейронной сети продемонстрировал журнал Cosmopolitan, который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала[10].

Архитектура

DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных на английском языке и генерации на их основании изображения[5][11]. Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер[12]. Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет[13].

Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения[4][5]. Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием[11].

Описание и характеристики

DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях[8]. Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах»[14]. Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — Input[15], NBC[16], Nature[17], Wired[18], CNN[19] и BBC[20]. Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена, созданный для оценки интеллекта людей[21].

DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана[5]. Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет»[22]. BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать»[20].

Примечания

Шаблон:Примечания

Литература

  • Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8.

Шаблон:Обработка естественного языка Шаблон:Типы искусственных нейронных сетей Шаблон:Искусственный интеллект Шаблон:Машинное обучение