Русская Википедия:ЛАИОН
Large-scale Artificial Intelligence Open Network (LAION) — немецкая некоммерческая организация, заявившая о своей цели «сделать крупномасштабные модели машинного обучения, наборы данных и связанный с ними код доступными для широкой публики»Шаблон:R. Она наиболее известна тем, что выпустила ряд больших наборов данных изображений и подписей, извлеченных из Интернета, которые были использованы для обучения ряда известных моделей преобразования текста в изображение, включая Stable Diffusion и ImagenШаблон:RШаблон:R.
В феврале 2023 года LAION был указан в иске Getty Images против Stable Diffusion в качестве лица, не привлеченного к процессу[1]. В апреле 2023 года на LAION напрямую подал в суд немецкий фотограф, который хотел, чтобы его изображения были удалены из тренировочного набора[2].
15 апреля 2023 года LAION и участники выпустили для публики чат-бота AI-помощника с открытым исходным кодом OpenAssistant.
Наборы данных изображений
LAION публично выпустила ряд больших наборов данных пар изображений и подписей, которые широко использовались исследователями искусственного интеллекта. Данные получены из Common Crawl, набора данных извлеченных веб-страниц. Разработчики искали в просканированном html теги <img>
и рассматривали их атрибуты alt как подписи. Они использовали CLIP для выявления и удаления изображений, содержание которых не соответствовало их подписямШаблон:R. LAION не хранит содержимое скопированных изображений; скорее, набор данных содержит URL-адреса, указывающие на изображения, которые исследователи должны загрузить самиШаблон:R.
Первый такой набор данных, LAION-400M, был выпущен в августе 2021 года и состоял из 400 миллионов пар изображений и подписей. Пары были извлечены из случайного набора веб-страниц, отобранных Common Crawl в период с 2014 по 2021 годШаблон:R Это была попытка воссоздать процесс, используемый OpenAI для сбора 400 миллионов пар изображений и подписей, которые они использовали для обучения модели CLIP. компания решила открыть исходный код модели и веса, но не набор данных для обученияШаблон:R. Imagen, модель преобразования текста в изображение, анонсированная Google Brain в 2022 году, была обучена на LAION-400M в сочетании с частными внутренними наборами данныхШаблон:R.
Преемник более чем 5 миллиардов пар, LAION-5B, был выпущен в марте 2022 годаШаблон:R. На момент его выпуска это был самый большой из существующих свободно доступных наборов данных пар изображений и подписейШаблон:R. Его создание было профинансировано Doodlebot, Hugging Face и Stability AI, компанией, занимающейся искусственным интеллектом, стоящей за финансированием модели преобразования текста в изображение Stable Diffusion, которая была обучена на немШаблон:R.
Пример данных
Здесь приведен пример метаданных, связанных с одной записью в наборе данных LAION-5B. Само содержимое изображения, показанное справа, не хранится в наборе данных, а связано только с полем URL:[3]
- URL
- https://upload.wikimedia.org/wikipedia/commons/thumb/4/45/Ammodorcas_clarkei_The_book_of_antilopes_%281894%29.jpg/275px-Ammodorcas_clarkei_The_book_of_antilopes_%281894%29.jpg
- Text
- Ammodorcas clarkei The book of antelopes (1894).jpg
- Width
- 275 (измеряется в пикселях)
- Height
- 311
- Similarity
- 0,34972 (косинусное сходство между изображением и подписью, измеренное с помощью CLIP. Любые пары, имеющие значения сходства менее 0,3, были исключены из набора данных)
- Pwatermark
- 0,30022 (оценочная вероятность того, что на этом изображении есть водяной знак, определенная моделью ИИ)
- Punsafe
- 0,0000001688 (оценочная вероятность того, что это изображение «небезопасно для работы», согласно оценки модели ИИ)
- Aesthetic
- 6,02298 (приблизительный балл, который оценщик присвоил бы эстетике этого изображения по шкале от 1 до 10)
Ссылки
- Страницы с игнорируемыми отображаемыми названиями
- Русская Википедия
- Страницы с неработающими файловыми ссылками
- Некоммерческие организации Германии
- Искусственный интеллект
- Открытая наука
- Страницы, где используется шаблон "Навигационная таблица/Телепорт"
- Страницы с телепортом
- Википедия
- Статья из Википедии
- Статья из Русской Википедии