Английская Википедия:Comparison of optical character recognition software

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Short description This comparison of optical character recognition software includes:

  • OCR engines, that do the actual character identification
  • Layout analysis software, that divide scanned documents into zones suitable for OCR
  • Graphical interfaces to one or more OCR engines
  • Software development kits that are used to add OCR capabilities to other software (e.g. forms processing applications, document imaging management systems, e-discovery systems, records management solutions)
Sortable table
Name Founded year Latest stable version Release year License Online Windows Mac OS X Linux BSD Android iOS Programming language SDK? Languages Fonts Output Formats Notes
ABBYY FineReader 1989 16 2022 Шаблон:Proprietary Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:No Шаблон:Yes Шаблон:Yes Шаблон:Yes C/C++ Шаблон:Yes 192[1] All fonts DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2[2] ABBYY also supplies SDKs for embedded and mobile devices. Professional, Corporate and Site License Editions for Windows, Express Edition for Mac.[3]
AnyDoc Software 1989 Шаблон:Dunno Шаблон:Dunno Шаблон:Proprietary Шаблон:No Шаблон:Yes Шаблон:No Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno VBScript Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Works with structured, semi-structured, and unstructured documents.
Asprise OCR SDK 1998 15 2015 Шаблон:Proprietary Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Dunno Шаблон:Dunno Java, C#,VB.NET, C/C++/Delphi Шаблон:Yes 20+[4] Шаблон:Dunno Plain text, searchable PDF, XML[5] Java, C#, VB.NET, C/C++/Delphi SDKs for OCR and Barcode recognition on Windows, Linux, Mac OS X and Unix.[6]
CuneiForm 1996 1.1 2011 Шаблон:Free Шаблон:No Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Dunno Шаблон:Dunno C/C++ Шаблон:Yes 28 Any printed font HTML, hOCR, native, RTF, TeX, TXT[7] Enterprise-class system, can save text formatting and recognizes complicated tables of any structure
Dynamsoft OCR SDK 2003 8.2 2012 Шаблон:Proprietary Шаблон:Yes Шаблон:Yes Шаблон:No Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno C/C++ Шаблон:Yes 40+[8] Шаблон:Dunno PDF, TXT
E-aksharayan 2010 Шаблон:Yes Шаблон:No Шаблон:Yes Шаблон:No Шаблон:Dunno Шаблон:Dunno 14 RTF, TXT, BRL
GOCR 2000 0.52[9] 2018 Шаблон:Free Шаблон:Yes[10] Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Dunno Шаблон:Dunno C Шаблон:Dunno 20+ Шаблон:Dunno
Google Drive OCR or Google Cloud Vision 2015 Шаблон:Proprietary Yes Browser Browser Browser Unknown Шаблон:Dunno Шаблон:Dunno Unknown Yes 200+ All fonts text Google blog post[11][12]
Microsoft Office Document Imaging Шаблон:Dunno Office 2007 2007 Шаблон:Proprietary Шаблон:No Шаблон:Yes Шаблон:No Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Uses OmniPageШаблон:Citation needed
Microsoft Office OneNote 2007 2011 Шаблон:Dunno 2007 Шаблон:Proprietary Шаблон:No Шаблон:Yes Шаблон:No Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno
OCRFeeder 2009-03 0.8.5 2022 Шаблон:Free Шаблон:No Шаблон:No Шаблон:No Шаблон:Yes Шаблон:No Шаблон:Dunno Шаблон:Dunno Python Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Features a full user interface and has a command-line tool for automatic operations. Has its own segmentation algorithm but uses system-wide OCR engines like Tesseract or Ocrad
Ocrad Шаблон:Dunno 0.28[13] 2022 Шаблон:Free Шаблон:Yes Шаблон:No Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Dunno Шаблон:Dunno C++ Шаблон:Yes Latin alphabet Шаблон:Dunno Command line
OCRopus 2007 1.3.3 2017 Шаблон:Free Шаблон:No Шаблон:No Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Dunno Шаблон:Dunno Python Шаблон:Dunno All languages using Latin script (other languages can be trained) Normal Latin script and Fraktur (other scripts can be trained) TXT, hOCR,[14] PDF[15] Pluggable framework under active development, used for Google Books
OmniPage 1970s 19.2 2015 Шаблон:Proprietary Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:No Шаблон:Dunno Шаблон:Dunno C/C++, C#[16] Шаблон:Yes 125[17] Machine and handprinted fonts DOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A Searchable PDF HTML Text XML ePUB MP3 Product of Nuance Communications
Puma.NET Шаблон:Dunno Шаблон:Dunno 2009 Шаблон:Free Шаблон:No Шаблон:Yes Шаблон:No Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno C# Шаблон:Yes 28 Any printed font .NET OCR SDK based on Cognitive Technologies' CuneiForm recognition engine. Wraps Puma COM server and provides simplified API for .NET applications
ReadSoft Шаблон:Dunno Шаблон:Dunno 14Шаблон:Dunno Шаблон:Proprietary Шаблон:No Шаблон:Yes Шаблон:No Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Scan, capture and classify business documents such as invoices, forms and purchase orders integrated with business processes.
Scantron Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Proprietary Шаблон:No Шаблон:Yes Шаблон:No Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno For working with localized interfaces, corresponding language support is required.
SmartScore 1991 10.5.8 2015 Шаблон:Proprietary Шаблон:No Шаблон:Yes Шаблон:Yes Шаблон:No Шаблон:No Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno Шаблон:Dunno For musical scores
Tesseract 1985 5.3.3 2023 Шаблон:Free Шаблон:No Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Yes Шаблон:Dunno Шаблон:Dunno C++, C Шаблон:Yes 100+[18] Any printed font Text, ALTO, hOCR,[19] PDF, others with different user interfaces[20] or the API Created by Hewlett-Packard; under further development by Google[21]
Name Founded year Latest stable version Release year License Online Windows Mac OS X Linux BSD Android iOS Programming language SDK? Languages Fonts Output Formats Notes

Evaluation

A 2016 analysis of the accuracy and reliability of the OCR packages Google Docs OCR, Tesseract, ABBYY FineReader, and Transym, employing a dataset including 1227 images from 15 different categories concluded Google Docs OCR and ABBYY to be performing better than others.[22]

References

Шаблон:Reflist

Шаблон:OCR

  1. Шаблон:Cite web
  2. Шаблон:Cite web
  3. Шаблон:Cite web
  4. Шаблон:Cite web
  5. Шаблон:Cite web
  6. Шаблон:Cite web
  7. Debian manual page for Cuneiform for Linux version 1.1.0
  8. Шаблон:Cite web
  9. Шаблон:Cite web
  10. Шаблон:Cite web
  11. Шаблон:Cite web
  12. Шаблон:Cite webШаблон:Cbignore
  13. Шаблон:Cite mailing list
  14. OCRopus includes the ocropus-hocr tool which produces hOCR from the recognition results.
  15. In combination with the hocr-tools
  16. Шаблон:Cite web
  17. Шаблон:Cite web
  18. Based on count of language training files for version 3.04. Available at the download page.
  19. Usage explained in the Tesseract Readme and FAQ
  20. Such as ODF with OCRFeeder
  21. Шаблон:Cite web
  22. Шаблон:Cite web