Русская Википедия:CuneiForm

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Карточка программы

CuneiForm (Шаблон:Lang-en, кьюниформ — клинопись), Cognitive OpenOCR — свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

OCR CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт в 1993 году. Система поставлялась с наиболее популярными моделями сканеров, МФУ и ПО в России и мире: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti и др. В 2008 году Cognitive Technologies открыла исходные коды OCR CuneiForm.

Особенности

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

Список языков, поддерживаемых системой: Шаблон:Кол

Шаблон:Конец кол

Кроме того, поддерживается смесь русского и английского языка. Распознавание смесей других языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году[1]. Обучение другим языкам затруднительно в виду связи каждого языка с dat-файлом, структура и способ получения каковых разработчиками не раскрывались.

История

1993 год — Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).[2]

1994 год — Заключен контракт с Hewlett-Packard по комплектации сканеров, поставляемых в Россию OCR CuneiForm. Это первый контракт HP с российским разработчиком ПО.[3][4][5][6]

1995 год — Заключен контракт с японской корпорацией Epson о комплектации сканеров OCR CuneiForm.[7] Подписан OEM-контракт с крупнейшим мировым производителем факсимильных аппаратов, лазерных принтеров, сканеров и другого офисного оборудования — Brother Corporation. Согласно договору новый роликовый сканер Brother IC-150 будет комплектоваться программным обеспечением Cognitive для сканирования, распознавания по всему миру.

1996 год — Подписан ОЕМ-контракт с одним из крупнейших мировых производителей мониторов, факсимильных аппаратов, лазерных принтеров, многофункциональных устройств и другого офисного оборудования — Samsung Information Systems America.[8]Согласно договору новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A будет продаваться в комплекте с системой оптического распознавания символов Cognitive Cuneiform LE по всему миру.

  • Подписан ОЕМ-контракт с ведущим мировым производителем офисного оборудования компанией Xerox о комплектации многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
  • Выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.

Адаптивное распознавание — метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность бесшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.

1997 год — В системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

  • Подписан новый ОЕМ-контракт с компанией Canon на комплектацию многофункциональных устройств, поставляемых в Россию, системой CuneiForm;[9][10]
  • Подписан новый ОЕМ-контракт с компанией OKI Europe Limited на комплектацию многофункциональных устройств OKI FAX 4100 и OKI FAX 5200, поставляемых в Россию, системой CuneiForm;[11]
  • Выход первой в мире OCR-системы CuneiForm MMX Update для процессора Intel-MMX;[12]
  • Сканеры NeuHaus комплектуются системой распознавания CuneiForm;
  • Выход первой в России системы сетевого сканирования CuneiForm 98 NeST.

1999 год

  • Подписан новый ОЕМ-контракт с компанией Olivetti на комплектацию многофункциональных устройств поставляемых в Россию системой CuneiForm;
  • Заключено дистрибуторское соглашение с ведущим европейским дистрибутором ПО компанией WSKA (Франция) на распространение OCR Cuneiform Direct в Европе;
  • Вышла новая версия системы распознавания CuneiForm 2000 в которой реализован метод "Когнитивного анализаТМ: внутрь ядра распознавания встроена экспертная система, которая позволяет проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма распознавания, и выбирать оптимальный вариант.
  • Разработан метод «Меридианной сегментации таблиц» для повышения точности воссоздания исходной формы таблицы в выходном документе;
  • Разработан механизм воссоздания формы исходного документа «What you scan is what you get». Дело в том, что до настоящего времени пользователи систем распознавания тратили достаточное количество времени (которое часто превышало время самого сканирования и распознавания) для придания документу его исходной формы, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т. д.

2001 год — Подписан OEM-контракт о комплектации оборудования, производимого компанией Canon (сканеры, многофункциональные устройства), программным обеспечением Cognitive Technologies (OCR CuneiForm) на территории стран Восточной Европы.

12 декабря 2007 года была выпущена freeware-версия OCR CuneiForm и анонсировано открытие её исходных текстов[13].[14][15]

2 апреля 2008 года были опубликованы исходные тексты OCR Cuneiform под лицензией BSD[16], а осенью — исходные тексты интерфейса системы[17].

Последняя версия OpenSource версии для Windows не обновлялась с февраля 2009.

В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 — Cuneiform-Qt[18], YAGF. Начиная с версии 0.9.0[19] открытую версию для Linux можно использовать в качестве библиотеки.

Графические интерфейсы для CuneiForm

См. также

Примечания

Шаблон:Примечания

Ссылки

Шаблон:OCR

  1. ~anb-symmetrica/cuneiform-linux/cuneiform-multilang : revision 400
  2. Шаблон:Cite web
  3. «Законные» сканеры HP научатся читать по-русски Шаблон:Wayback, Коммерсант, 01.09.1994
  4. Шаблон:Cite web
  5. Hewlett-Packard presents new products in Moscow Шаблон:Wayback, Algonet
  6. HP и Cognitive углубляют партнерство Шаблон:Wayback, PCweek
  7. Шаблон:Cite web
  8. Samsung выбрал OCR фирмы Cognitive Technology для комплектации многофункциональных устройств Шаблон:Wayback, PCweek, 10.09.1996
  9. Владимир Митин Многофункциональные аппараты Canon обрели новое качество Шаблон:Wayback,PCweek, 12.05.1998
  10. Владимир Митин Альянс компаний Canon — Cognitive Technologies развивается успешно Шаблон:Wayback, PCweek, 29.02.2000
  11. Cognitive Technologies и OKI жмут на газ Шаблон:Wayback, PCweek
  12. Неформальный маркетинг HP Шаблон:Wayback, Computer World
  13. OCR CuneiForm — первый промышленный Open Source проект в области распознавания Шаблон:Webarchive
  14. Российская система распознавания текстов CuneiForm станет открытой Шаблон:WaybackСybersecurity, 06.12.2007
  15. CuneiForm возвращается Шаблон:Wayback, Computerworld, 24.12.2007
  16. Шаблон:Cite web
  17. Cognitive Technologies открыла код OCR Cuneiform Шаблон:Webarchive
  18. Шаблон:Cite web
  19. Шаблон:Cite web