tesseract-ocr

http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113

http://code.google.com/p/tesseract-ocr/

http://forja.guadalinex.org/webs/guadalinexv7/doku.php?id=ev_tesseract_v7

http://blyx.com/2010/11/30/integracion-de-ocr-en-alfresco/

http://wiki.reyesoft.com/Instalar_y_educar_Tesseract-OCR_de_Google

Tesseract : Reconocedor óptico de caracteres

* Aplicación desarrollada por HP (1985-1995) y en 2005 se encargó Google de liberarla (con licencia Apache) y mantener su desarrollo.

* Se utiliza desde consola

* Tiene la posibilidad de instalar un diccionario de idiomas para entrenar el OCR.

¿Cómo se emplea?

* Es necesario tener la imagen escaneada en formato tiff (sin compresión), si no se tiene en formato tiff se convierte con el comando:

$ convert %archivo_origen% %archivo_destino.tif%

* Lanzar el OCR Tesseract con el comando (tesseract añade por defecto la extensión txt a los archivos de salida):

$ tesseract %archivo.tif% %archivo_modotexto%

Solo reconocimiento de digitos ./tesseract ~/image.tif ~/output nobatch digits
Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: