Lee imágenes desde tu Mac con Tesseract de forma fácil y gratuita

Fecha de publicación: 1 marzo, 2016

A veces necesitamos manipular o acceder a la información escrita de una imagen o documento con imágenes incrustadas, esto es muy habitual por ejemplo para las personas ciegas o con baja visión. Para estas tareas se suele utilizar una herramienta software de reconocimiento óptico de caracteres o las siglas en inglés OCR.

Estas aplicaciones de OCR han sido, hasta hace poco, bastante caras de precio pero en la actualidad, y gracias al movimiento de software libre, disponemos de buenas alternativas libres y gratuitas. El ejemplo más conocido es Tesseract.

Este motor OCR fue originariamente desarrollado por Hewlett Packard para ser un software de pago, tras 10 años de explotación fue donado como código abierto a la comunidad. Actualmente Google se encarga de su mantenimiento y su nivel de precisión y soporte de varios idiomas lo convierten en una buena opción para competir con otros motores OCR de pago.

MacOS X, el sistema operativo de Apple para sus ordenadores de sobremesa y portátiles, dispone de una versión de Tesseract dentro de la comunidad de desarrollo. Esta versión puede ayudarnos en muchos momentos a acceder al contenido textual de una imagen o recurso visual de forma rápida y gratuita.

Instalación de Tesseract

Tesseract se distribuye de forma abierta con su código fuente por lo que cualquiera puede visitar la página web del proyecto Tesseract y bajar su código fuente y compilarlo en su máquina utilizando las diversas herramientas de desarrollo. Cuando hay herramientas de desarrollo involucradas en una tarea muchos usuarios piensan que va a ser algo imposible, no es del todo así en todos los casos.

Herramientas para desarrolladores que ayudan a todo el mundo

Las herramientas para desarrolladores, utilizadas de forma apropiada, pueden ayudar a cualquiera. Al igual que un cuchillo puede ser utilizado para defensa también nos puede ayudar a cortar el pan o una cuerda, sólo debemos preocuparnos por aprender a utilizarlo de forma apropiada y responsable.

La instalación de Tesseract puede ser muy compleja a menos que hagamos uso de una de estas herramientas para desarrolladores, hablamos de Homebrew. Brew o Homebrew es un gestor de paquetes que permite instalar rápidamente librerías y utilidades en MacOS X. La mayoría de estas utilidades y librerías están relacionadas con tareas de desarrollo pero otras son utilidades del sistema para el usuario, como es el caso de Tesseract.

La instalación de Homebrew y Tesseract se realizará a través del terminal.

Para instalar Homebrew simplemente abre el terminal, localizado en la carpeta Utilidades que está dentro de la carpeta de Aplicaciones.

Una vez abierta la ventana del terminal escribe la siguiente línea de comandos:


/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

Una vez instalado Homebrew podemos comprobar si se ha instalado correctamente. Para ello escribimos en el terminal el siguiente comando:

brew --version

Atención: los comandos del terminal son sensibles a mayúsculas y minúsculas por lo que hay que tener cuidado en cómo se escribe cada comando.

Instalación rápida de Tesserac

Una vez instalado Homebrew en nuestro equipo podemos instalar Tesseract con soporte para más de 30 idiomas con un simple comando de terminal:

brew install tesseract --with-all-languages

Instalando todos los lenguajes nos aseguramos que tendremos un soporte completo para nuestro idioma.

Utilizando Tesseract desde la consola de comandos

Usar Tesseract desde la línea de comandos es tan sencillo como llamarlo indicando el fichero de imagen y el nombre del fichero donde queremos que guarde el resultado. Un ejemplo:

tesseract $HOME/Desktop/captura.png $HOME/Desktop/resultado

El anterior ejemplo utilizará el fichero de imagen captura.png, que puede ser una captura de pantalla guardada en nuestro escritorio, y guardará el resultado del proceso OCR en el fichero resultado.txt que se guardará en el escritorio. El problema de este comando es que intentará realizar el proceso primero en inglés. Podemos indicar el idioma simplemente con el parámetro -l. El ejemplo quedaría así si queremos realizar el proceso de OCR para el idioma español:

tesseract $HOME/Desktop/captura.png $HOME/Desktop/resultado -l spa

Desinstalar Tesseract

Si por alguna razón no queremos seguir teniendo a Tesseract el comando es tan simple como:

brew uninstall tesseract

5 comentarios en “Lee imágenes desde tu Mac con Tesseract de forma fácil y gratuita

  1. Muy buen aporte. Tengo varias pregubntas:
    1. Como es la calidad del reconocimiento de este motor OCR, Al menos yo lo probé en nvda utilizando un complemento que incluía Tesseract y no estuve buenos resultados.
    2. Si o si es necesario la instalación de la herramienta de desarrollo para compilaro o con solo instalar Tesseract ya funcionaría.

    1. Buenas, pues la calidad del motor es la misma para todos los sistemas de escritorio. Esto quiere decir que tendrás casi los mismos resultados en Windows y en Mac. Recuerda que es un motor gratuito
      Sobre tu segunda pregunta decir que con tenerlo instalado sería suficiente. Aquí sólo explico un método más sencillo para conseguir esa instalación

  2. Hola. Tengo un par de dudas, he llegado hasta el punto donde se instala y descarga Brew y cuando hago la prueba para ver si esta correcto me sale este mensaje:
    -bash: brew: command not found
    No se si es un comando correcto pero al intentar instalar Tesseract (me he descargado el código fuente antes de la web y lo he metido en mi carpeta raíz) me sale un mensaje el mismo error:
    -bash: brew: command not found

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *