Русская Википедия:Google Книги

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Карточка сайта

Google Книги (Шаблон:Lang-en, Google Print, Project Ocean) — масштабный проект компании Google, запущенный в 2004 году и направленный на оцифровку и публикацию в интернете миллионов печатных произведений. Основная идея заключалась в том, чтобы сделать все когда-либо напечатанные книги доступными для чтения и поиска в интернете, обеспечив пользователям неограниченный доступ к знаниям. В 2010 году Google сообщила, что, по её оценкам, в мире насчитывается более 129 млн печатных изданий, которые компания планирует полностью оцифровать за 10 лет.

Бо́льшая часть коллекции поступала на оцифровку из университетских библиотек. В обмен на бесплатный доступ к книгам, университеты получали бесплатные электронные копии, а Google — материалы для улучшения поисковой системы и создания обширной коллекции цифровых материалов. Компания сотрудничала с более чем 40 крупнейшими библиотеками, включая библиотеки Мичиганского, Гарвардского, Стэнфордского, Оксфордского университетов, а также Нью-Йоркскую публичную библиотеку. Часть коллекции поступала от издателей и авторов, предоставляющих Google разрешение на оцифровку материалов в обмен на доход от контекстной рекламы или от увеличения продаж благодаря росту спроса на электронные книги.

Компания проспонсировала разработку специальных аппаратов для сканирования книг, которые с помощью высокоточных камер могли обрабатывать до 1000 страниц в час. Встроенное программное обеспечение исправляло искажения, корректировало цвет и контраст, а также преобразовывало сноски в цитаты, что впоследствии позволило системе ранжировать книги по релевантности. При этом операторы переворачивали страницы вручную. К 2019 году в рамках проекта было оцифровано более 40 млн произведений.

В 2005 году Шаблон:Iw и ряд других издателей подали Шаблон:Iw, обвинив компанию в несанкционированном сканировании защищённых авторским правом материалов. Судебный процесс продолжался до 2016 года, после чего суд принял решение в пользу Google, определив, что сканирование материалов соответствует принципу добросовестного использования. Однако из-за нерешённых правовых споров оцифровка значительно замедлилась. По состоянию на 2023 год остаётся неясным, продолжает ли компания оцифровывать библиотечные издания.

Возникновение

Файл:Google Book Search - notice board at michigan university library.jpg
Уведомление об оцифровке книг в проекте с Google Books в библиотеке Мичиганского университета
Файл:Google Books 2010 logo.png
Логотип Проекта

Со времён аспирантуры в Стэнфордском университете со-основатели Google Ларри Пейдж и Сергей Брин задумывались об оцифровке огромных коллекций печатных изданий и предоставлении к ним широкого доступаШаблон:Sfn. Эти идеи — оцифровка, доступность, возможность поиска по всем текстам мира — побудили Брина и Пейджа создать «поисковый робот», который впоследствии лёг в основу поисковой системы GoogleШаблон:Sfn.

В 2002 году стартовал проект под кодовым названием «Проект Океан» (Шаблон:Lang-en), в рамках которого сотрудники компании Google анализировали возможность массовой оцифровки всех печатных изданий. Впоследствии проект переименовали в Google Print, а затем — в Google Books[1][2]. Основная идея заключалась в оцифровке всех книг мира — свыше 125 млн[3]. По подсчётам Google, около 20 % из них находились в общественном достоянии, остальные были защищены авторским правом, однако уже не издавались. Google обратился к крупнейшим университетским библиотекам с просьбой предоставить бесплатный доступ к их коллекциям, а взамен предлагал бесплатные отсканированные копии[3][4][5]. Предполагалось, что это будет беспроигрышная стратегия для двух сторон — библиотеки получают электронные версии сотен тысяч книг, а поисковая система Google улучшает качество и релевантность результатов поиска[6]. Помимо этого, Google инициировал партнёрскую программу для издателей и авторов, в рамках которой правообладатели могли разрешить Google сканировать полный текст книги[7]. Взамен они могли получить доход от контекстной рекламы или увеличения продаж от роста спроса на электронные книги[7]. Масштабная оцифровка началась в 2004 году[8]. Полное сканирование всех материалов планировалось завершить за10 лет[4].

Проект был представлен в октябре 2004 года на Франкфуртской книжной ярмарке[9][7]. Предполагалось, что Google будет сканировать только общедоступные материалы из Оксфордской и Ньй-Йоркской публичных библиотек, а также часть коллекций в библиотеки Гарвардского университета. Библиотеки Мичиганского и Стэнфордского университетов разрешали оцифровку лишь произведений в общественном достоянии[7]. В декабре 2005 года проект переименовали в Google Books[10].

К июню 2010 года было оцифровано 12 млн книг, написанных примерно на 480 языках. На тот момент Google планировала завершить работу к 2020 году, создав виртуальную коллекцию из 4 млрд страниц или 2 трлн слов. К 2014 году число оцифрованных книг достигло 25 млн, а общие инвестиции в проект составляли 400 млн долларов[3]. В 2015 году Google заявила, что отсканировала 30 млн томов, что было сравнимо с крупнейшими библиотеками мира, например, Библиотекой Конгресса, насчитывающей около 37 млн книг[11]. Однако из-за Шаблон:Iw оцифровка сильно замедлилась[11][12]. К 2019 году было оцифровано свыше 40 млн печатных произведений[13].

Google заключила договоры с более чем 40 библиотеками по всему миру, включая библиотеки Гарварда[14], Стэнфорда[15], Мичиганского[16], Корнеллского[17] и Колумбийского университетов[18], Нью-Йоркскую публичную библиотеку[19], Бодлианскую библиотеку[20], Австрийскую национальную библиотеку[21], Баварскую государственную библиотеку[22], Мадридского университета Комплутенсе[23], Гентского университета[24], Библиотека Каталонии[25], Библиотека Принстонского университета[26], Виргинского университета[27], Висконсинского университета в Мадисоне[28].

Миссия

Проект Google Книги преследовал несколько амбициозных целей. Создатели стремились защитить тысячи важных публикаций от исчезновения из-за утраты печатной версии или прекращения издания[29]. Они намеревались создать всеобъемлющую цифровую библиотеку мировых знаний, включающую информацию из всех когда-либо вышедших книгШаблон:Sfn[8]. Такой подход позволил бы обеспечить равный доступ к культурному и интеллектуальному наследию, требуя для чтения любого из материалов лишь доступ к интернетуШаблон:Sfn.

Google стремилась создать единый каталог всех печатных произведений и дать пользователям возможность искать по нему поиск с помощью ссылок и тегов. В то же время компания не ставила целью открыть полный доступ ко всем оцифрованным книгам, чему объективно мешали ограничения, связанные с авторским правом[6][7].

Оцифровка

Google стремилась при оцифровке произведений создавать качественные изображения минимального размера, чтобы даже пользователи в отдаленных местах без доступа к интернету могли использовать полученные материалы[1]. Руководителем оцифровки был назначен американский информатик Шаблон:IwШаблон:Sfn. Он принял решение оцифровывать книги путём фотографирования, а не сканирования[3][1].

Файл:Hand of Google.png
Пример отсканированноый руки оператора в одной из оцинкованных версий книг

Перед началом оцифровки Google вместе с партнёрской библиотекой разрабатывали подходящую выборку книг, принимая во внимание их ценность и состояние. Затем книги перевозили на грузовиках в специально оборудованные центры, где на расстоянии от Шаблон:Convert до Шаблон:Convert друг от друга были установлены станции оцифровки[3][1]. Каждое устройство было изготовлено на заказ и могло обрабатывать до 1000 страниц в час. Каждый печатный материал закреплялся на специальном стенде, а вверху устанавливались 2-4 камеры и инфракрасный свет для автоматической коррекции кривизны страниц в книге. После встроенный в систему лидар помог определить точное расположение книжных листов в пространстве, а специальное программное обеспечение «распрямляло» искривлённые страницы. Большинство книг не имели цветных фотографий или другой существенной информации о цвете. Используя методы интерполяции камеры уменьшали битность изображения и так уменьшали размер изображения[1][30].

Программное обеспечение было способно распознавать оптические символы, преобразуя изображения в текст, устранять искажения, корректировать цвет, настраивать контраст, а также учитывать сноски на другие книги, что впоследствии позволило системе ранжировать книги по релевантности[3]. Страницы переворачивались вручную специалистами, прошедшими специальную подготовку. Использование человеческого труда было необходимо для аккуратной работы со старыми материалами[31][1][3]. Подобная модель позволила Google сократить стоимость оцифровки одной книги до 10 долларов. Согласно расчётам компании, каждый оператор мог оцифровывать до 50 книг в день[1]. С течением времени сканеры продолжали совершенствоваться, новые версии выпускали каждые полгода[12].

После фотографирования камеры автоматически передавали полноценные изображения на связанный компьютер через FireWire или USB-соединение. Затем файлы загружались на серверы Google для дальнейшей обработки[1]. Сами книг возвращали сотрудникам библиотек, которые занимались их регистрацией в базе данных и возвращали обратно на полку. При этом библиотеки проверяли случайные выборки полученных файлов, чтобы убедиться, что они соответствуют необходимым требованиям контроля качества. Google предоставляла университетам доступ к системе загрузки всех цифровых файлов, созданных на их основе коллекций, а также разрешала переиздание материалов через их собственные онлайн-сервисы[1].

В 2008 году была создана партнёрская сеть HathiTrust, первоначально включавшая 13 университетов, каждый из которых планировал оцифровывать свои коллекции благодаря Google Books[32]. Организации сети договорились создать общий репозиторий для хранения оцифрованных книг. Материалы в открытом доступе доступны для онлайн-чтения[33][12].

Проблемы с коллекцией и критика

Файл:Image-L. A. Muratori - Geschichte von Italien 426.jpg
Плохое сканирование текста

Качество оцифрованных материалов часто подвергалось критике. На некоторых страницах видны пятна от табака, червоточины, пылинки и даже отпечатки цветов, зажатых между страницами . Из-за ошибок оптического распознавания некоторые страницы были преобразованы в нечитаемые узоры. Однако самой распространённой погрешностью были руки операторов, случайно попадавшие в кадр во время перелистывания страниц[34][35]. Некоторые страницы были пропущены или появлялись несколько раз[36].

Примерно 36 % оцифрованных книг содержали ошибки в метаданных, что значительно превышает уровень библиотечных онлайн-каталоговШаблон:Sfn. Старые журналы иногда не содержали никакой информации о метаданных, необходимых для идентификации отдельных статей. Поэтому в 2007 году Google Scholar инициировал отдельную программу для научных журналов[37].

Некоторые исследователи критиковали Google за слишком узкий выбор коллекций для цифровизации, считая, что есть перекос в пользу изданий на английском языке и, соответственно, другие языки оказываются недостаточно представлены В конечном итоге, это искажение может повлиять на качество и направление будущих исследованийШаблон:Sfn[38].

Судебные разбирательства

Американское авторское право контролирует использование копий произведений в цифровой сфере. Распространение электронных копий книг должно осуществляться под надзором правообладателей[39]. Основная критика и правовые проблемы проекта Google Книги были связаны с тем, что компания начала сканировать книги без получения разрешений у издателей и авторов[4][11][3].

В сентябре 2005 года группа из трёх авторов совместно с коллективом издателей, включая Шаблон:Iw, подали два коллективных иска против компании Google и HathiTrust за «масштабное нарушение авторских прав»[40][3][41].

Согласно иску, каждый истец утверждал, что имеет авторские права как минимум на одно произведение, находящееся в библиотеке Мичиганского университета. Целью иска был запрет оцифровки произведений и использование уже созданных копий без получения согласия их владельцев. Защита Google строилась на концепции справедливого использования — юристы компании утверждали, что документы являются преобразованными, поскольку компания не просто занималась оцифровкой, но и встроила систему поиска по ключевым словам[40][4]. Месяц спустя подобный иск против Google подала и Шаблон:Iw[42][4].

В 2008 году Google, совместно с Гильдией Авторов и Американской Ассоциацией Издателей, подготовили мирное соглашение. Согласно документу, Google должен был заплатить 125 млн долларов за сканирование защищённых авторским правом книг. При этом компания сохранила бы за собой возможность выкладывать материалы на своём сайте, а авторы и издатели смогли бы получать часть доходов от рекламы и других сборов. Количество отображаемого текста для пользователей было бы ограничено до 20 %, однако пользователи могли получать доступ к полному тексту за определённую плату. Для университетов и библиотек была предложена подписа, позволяющая их пользователям получить доступ к оцифрованным коллекциям[43]. По условиям соглашения, все авторы и издатели должны были отправить Google до июня 2010 года запросы на отказ от сканирования в будущем и удаление уже отсканированных книг[44][45].

Согласно американскому законодательству, чтобы утвердить мирное соглашение при коллективном иске, большинство участников группы должны были согласиться на новые условия в течение полугода. Однако несмотря на согласия двух сторон, урегулирование иска значительно затянулось из-за смены главного судьи[44]. Само соглашение вызвало критику со стороны ряда организаций и авторов. Они опасались, что соглашение приведёт к дисфункции системы авторского права, так как любой последующий общественно важный проект будет опираться только на доктрину справедливого использования, в то время как сама правовая система авторского права останется неизменённой[46]. Высказывались опасения, что внедрение подобной системы даст Google слишком много власти в сфере культуры[47][48][49]. Против соглашения выступили Microsoft, Amazon и Yahoo!, а также ряд других заинтересованных групп, включая Архив Интернета. Они посчитали, что соглашение между Google и книжными издателями противоречит конкурентному праву. Организации даже объединились в Шаблон:Iw, чтобы совместно высказать свои опасения Министерству юстиции США[50].

Из-за большого количества возражений и критических замечаний стороны были вынуждены переработать условия договора и в ноябре 2009 года представили «Соглашение о примерении 2.0». Документ ограничил сферу действия иностранными книгами, которые зарегистрированы в Бюро авторского права США или опубликованы в Великобритании, Канаде или Австралии. Он предоставил правообладателям право вести переговоры о доле доходов дал Google больше свободы в установлении цен. При невозможности установить правообладателя средства делились согласно Шаблон:Iw[51][52]. Согласно этому соглашению, Google мог бы открыть к просмотру до 20 % книги, чтобы побудить к покупке , а также продавать книги по ценам, определяемым алгоритмом или отдельным правообладателем[3]. Это урегулирование позволило бы Google стать крупнейшим в мире магазином электронных книг[53][54].

Период рассмотрения коллективных исков и возражений был установлен по ускоренному графику: возражения должны были быть представлены до 28 января 2010 года, а слушания должны были пройти 18 февраля[44]. Хотя новая версия соглашения получила меньше жалоб, многие авторы и издатели продолжали критиковать предложенные условия. Министерство юстиции США также выступало против, утверждая, что мирное соглашение по-прежнему не учитывает все антимонопольные вопросы[55]. 22 марта 2011 года суд отказал в принятии изменённого соглашения[56][57][58].

Когда не удалось достичь соглашения, Google продолжил оцифровку документов, а издатели начали вкладывать финансовые средства в бизнес по продаже электронных книг[12]. Гильдия авторов решила отказаться от поиска мирного соглашения, так что судебные разбирательства продолжились. В мае 2012 года суд присвоил делу статус группового иска, утверждая, что организации отстаивают условия класса. Поскольку иск представлял целый пласт сообщества (издателей и авторов), к нему применялась особая система американской правовой системы — в таком случае, суд имеет право «расширить» нормы законов, при условии согласия судьи и отсутствии возражений со стороны Министерства юстиции[3][59]. Новые требования, выдвинутые Гильдией Авторов, предусматривали выплату компанией 750 долларов за каждую направомерно отсканированную книгу в рамках проекта[60]. Однако 4 ноября 2013 года суд отклонил иск о нарушении прав, заявив, что использование Google произведений было «добросовестным использованием» в соответствии с законом об авторском праве[61][62][63][64].

В апреле 2014 Гильдия подала апелляцию на это решение. Она также начал лоббировать в Конгрессе создание некоммерческой организации, подобной ASCAP, которая будет оцифровывать и лицензировать книги своих авторов для всех библиотек, школ и других организаций, решивших платить абонентскую плату[65][11]. 16 октября 2015 суд снова подтвердил решение в пользу Google, а в ответ на это Гильдия авторов подала очередное ходатайство (Certiorari) с просьбой пересмотреть это решение[66]. В октябре 2015 года апелляционный суд США постановил, что масштабные усилия Google по сканированию миллионов книг для онлайн-библиотеки не нарушают закон об авторском праве, отвергнув доводы авторы, что проект лишает их доходов[67].

Затянувшийся на 11 лет судебный процесс завершился в апреле 2016 года. Верховный суд США постановил, что не будет принимать апелляцию со стороны Гильдии авторов[68][69][70][71]. Формально в деле победила Google, поскольку компании позволили продолжать показывать отрывки из оцифрованных книг. Однако читатели не получили доступ к обширной цифровой библиотеке, а авторы и издатели лишились возможность постоянно получать доход продажи произведений. Отсканировав около 25 млн книг и вложив в проект порядка 400 млн долларов, Google не смог полноценно запустить проект. Работы по сканированию были практически остановлены Полный доступ к оцифрованным Google материалам по-прежнему невозможен[72].

Другие дела

В 2009 году Французское издательство Éditions du Seuil отсудило в Парижском суде €300 тысяч компенсации, а также €10 тысяч в день за книгу до удаления из баз данных Google[73][74][75].

В 2010 Шаблон:Iw подало в суд на Google за незаконное копирование материалов, содержащих защищённые авторским правом изображения[76].

В 2009 году китайская писательница Мянь Мянь подала в суд на Google за нарушение авторских прав. Её рассказ «Кислотные любовники» был оцифрован и попал в Google Books. Писательница потребовала возместить ей ущерб в размере 61 тысячи юаней (8900 долларов). Это стало первым гражданским иском против Google в Китае[77][78]. Также в 2009 году Китайское общество по защите авторских прав писателей обвинило Google в сканировании 18 тысяч книг 570 китайских писателей без разрешения[79].

Влияние

В основе проекта Google Books лежит утопическая идея о создании библиотеки, содержащей информацию о всём мировом знании. Google планировал создать общедоступную коллекцию, содержащую информацию о всех когда-либо опубликованных материалах[6]. Согласно исследователям, предложенные для мирного урегулирования соглашения внесли большой вклад в развитие системы авторского права. Несмотря на отсутствие консенсуса, они показали слабые стороны и консерватизм американской системы авторского права, а также её неспособность приспособиться к новой информационной среде[39].

Примечания

Шаблон:Примечания

Литература

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 Шаблон:Cite web
  2. Шаблон:Cite web
  3. 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 Шаблон:Cite web
  4. 4,0 4,1 4,2 4,3 4,4 Шаблон:Cite web
  5. Шаблон:Cite web
  6. 6,0 6,1 6,2 Шаблон:Cite web
  7. 7,0 7,1 7,2 7,3 7,4 Шаблон:Cite web
  8. 8,0 8,1 Шаблон:Cite web
  9. Шаблон:Cite web
  10. Шаблон:Cite web
  11. 11,0 11,1 11,2 11,3 Шаблон:Cite web
  12. 12,0 12,1 12,2 12,3 Шаблон:Cite web
  13. Шаблон:Cite web
  14. Шаблон:Cite web
  15. Шаблон:Cite web
  16. Шаблон:Cite web
  17. Шаблон:Cite web
  18. Шаблон:Cite web
  19. Шаблон:Cite web
  20. Шаблон:Cite web
  21. Шаблон:Cite web
  22. Шаблон:Cite web
  23. Шаблон:Cite web
  24. Шаблон:Cite web
  25. Шаблон:Cite web
  26. Шаблон:Cite web
  27. Шаблон:Cite web
  28. Шаблон:Cite web
  29. Шаблон:Cite web
  30. Шаблон:Cite web
  31. Шаблон:Cite web
  32. Шаблон:Cite web
  33. Шаблон:Cite web
  34. Шаблон:Cite web
  35. Шаблон:Cite web
  36. Шаблон:Cite web
  37. Шаблон:Cite web
  38. Шаблон:Cite web
  39. 39,0 39,1 Шаблон:Cite web
  40. 40,0 40,1 Шаблон:Cite web
  41. Шаблон:Cite web
  42. Шаблон:Cite web
  43. Шаблон:Cite web
  44. 44,0 44,1 44,2 Шаблон:Cite web
  45. Шаблон:Cite web
  46. Шаблон:Cite web
  47. Шаблон:Cite web
  48. Шаблон:Cite web
  49. Шаблон:Cite web
  50. Шаблон:Cite web
  51. Шаблон:Cite web
  52. Шаблон:Cite web
  53. Шаблон:Cite web
  54. Шаблон:Cite web
  55. Шаблон:Cite web
  56. Шаблон:Cite web
  57. Шаблон:Cite web
  58. Шаблон:Cite web
  59. Шаблон:Cite web
  60. Шаблон:Cite web
  61. Шаблон:Cite web
  62. Шаблон:Cite web
  63. Шаблон:Cite web
  64. Шаблон:Cite web
  65. Шаблон:Cite web
  66. Шаблон:Cite web
  67. Шаблон:Cite web
  68. Шаблон:Cite web
  69. Шаблон:Cite web
  70. Шаблон:Cite web
  71. Шаблон:Cite web
  72. Шаблон:Cite web
  73. Шаблон:Cite web
  74. Шаблон:Cite web
  75. Шаблон:Cite web
  76. Шаблон:Cite web
  77. Шаблон:Cite web
  78. Шаблон:Cite web
  79. Шаблон:Cite web