BookCorpus (также иногда называемый Toronto Book Corpus) представляет собой набор данных, состоящий из текстов около 11 000 неопубликованных книг, извлеченных из Интернета. Это был основной корпус, использовавшийся для обучения начальной версии GPT OpenAI[1], он также использовался в качестве обучающих данных для других ранних больших языковых моделей, включая BERT от Google[2]. Набор данных состоит примерно из 985 миллионов слов, а книги, входящие в его состав, охватывают целый ряд жанров, включая романы, научную фантастику и фэнтези[2].
Корпус был представлен в статье 2015 года исследователей из Университета Торонто и Массачусетского технологического института под названием «Сопоставление книг и фильмов: на пути к сюжетным визуальным объяснениям путем просмотра фильмов и чтения книг». Авторы описали его как состоящий из «бесплатных книг, написанных ещё неопубликованными авторами»[3][4]. Набор данных изначально размещался на веб-странице Университета Торонто[4]. Официальная версия исходного набора данных больше не является общедоступной, хотя была создана по крайней мере одна замена, BookCorpusOpen. Хотя это и не было задокументировано в оригинальной статье 2015 года, сайт, с которого были извлечены книги корпуса, теперь известен как Smashwords[4][5].
Примечания
Шаблон:Примечания
Партнерские ресурсы |
---|
Криптовалюты |
|
---|
Магазины |
|
---|
Хостинг |
|
---|
Разное |
- Викиум - Онлайн-тренажер для мозга
- Like Центр - Центр поддержки и развития предпринимательства.
- Gamersbay - лучший магазин по бустингу для World of Warcraft.
- Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память.
- Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России.
- Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме.
- Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео.
- Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет
- SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона.
- «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется.
- StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.
- Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено.
- StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.
|
---|
- ↑ Ошибка цитирования Неверный тег
<ref>
; для сносок gpt-1-paper
не указан текст
- ↑ 2,0 2,1 Ошибка цитирования Неверный тег
<ref>
; для сносок bert-paper
не указан текст
- ↑ Ошибка цитирования Неверный тег
<ref>
; для сносок bookpaper
не указан текст
- ↑ 4,0 4,1 4,2 Ошибка цитирования Неверный тег
<ref>
; для сносок swallows
не указан текст
- ↑ Ошибка цитирования Неверный тег
<ref>
; для сносок debt
не указан текст