Nos ha ocurrido. El único material disponible para trabajar es una impresión, porque los archivos se perdieron. O solo existe el archivo PDF de documentos escaneados… como imagen. ¿Múltiples imágenes no editables que contienen el 30% de la información necesaria?
No te preocupes, para obtener el texto editable solo necesitas un plan de acción y algunas herramientas (que quizá ya tengas).
El plan de acción
Estas son las preguntas básicas:
- ¿En qué formato está actualmente la información?
- ¿Para qué se ocupará el texto resultante?
- ¿Qué hardware y software me conviene usar?
Es importante que tengas presentes las respuestas porque eso te ayudará a decidir mejor. No es lo mismo aplicar reconocimiento de texto en un documento solo con fines de búsqueda, que si requieres obtener el texto con flujo continuo.
Tampoco es lo mismo obtener texto de tres cuartillas que de un bonche de 150 hojas de un manual del que solo existen fotocopias.
Por supuesto, siempre existe la opción de capturar “a mano” el material que requieras, pero aquí te mencionaré las opciones que tienes para hacerlo en forma automatizada y las limitantes de cada opción.
Formato de la información
El formato es importante porque de eso dependerá si se usará hardware especial.
Si existen solamente documentos físicos como impresiones, manuales impresos, fotocopias, etcétera, existen tres opciones: utilizar un escáner, una cámara digital o la cámara de un smartphone.
Si existen archivos digitales como imágenes de textos (fotografías o escaneos) o archivos en PDF que contengan imágenes, solo se requerirá utilizar las opciones de software más adecuadas para procesar las imágenes.
Propósito del texto resultante
¿Para qué se usará la información? Quizá solo requieras que un archivo PDF tenga opciones de búsqueda. Pero también es posible que requieras el texto editable, para procesarlo y generar un nuevo producto, como un curso e-learning, un manual digital, un cómic, el guion para un video… o un libro electrónico en formato ePub o MOBI.
Hardware y software para capturar texto
Como te decía al inicio, puedes utilizar un escáner, una cámara digital o un smartphone.
El uso de la cámara digital será útil si no tienes un escáner o si el documento que necesitas capturar presenta características especiales. Por ejemplo, si requieres capturar el texto de múltiples impresiones en gran formato (tamaño póster, por ejemplo). O si es un material que no puedes mover de su ubicación (ejemplares únicos o bajo resguardo, por ejemplo).
El caso de los smartphones es parecido al de las cámaras digitales, pero tiene una ventaja adicional: existen aplicaciones, tanto para Android como para iOS que permiten hacer el reconocimiento de texto desde que se obtiene la imagen. Existen múltiples opciones en las tiendas de aplicaciones de cada sistema operativo, pero si quieres que sugiera algunas, indícalo en los comentarios.
En el caso del escáner, existen dos tipos: de cama plana y de rodillo (aunque muchos multifuncionales de gama media cuentan con ambas opciones). El de cama plana te permitirá escanear revistas, libros, manuales. El de rodillo te permite escanear hojas sueltas, como copias o impresiones.

En ambos casos los archivos obtenidos pueden ser solamente las imágenes, un archivo PDF o incluso el mismo escáner puede tener su propio software de reconocimiento de texto. Eso es una gran ventaja.
Si solo requieres hacer búsquedas en el texto
Cuando se dispone de imágenes o un archivo PDF de imágenes, de una vez te diré qué te conviene más: si tienes Adobe Acrobat Pro, utiliza las opciones de reconocimiento de texto incluidas.
El mismo programa te permitirá reunir un conjunto de imágenes en un solo PDF. Posteriormente puedes aplicar el reconocimiento.

Luego podrás un reconocimiento de texto. Te sugiero hacerlo a 300 ppp como mínimo. Si quieres el máximo reconocimiento puedes utilizar la opción a 600 ppp (por supuesto, entre mayor sea la densidad de pixeles, más tardado será el proceso).

El archivo resultante será un PDF en el que podrás buscar el texto reconocido, utilizando la búsqueda de Acrobat.
Existen programas alternativos a Adobe Acrobat Pro. De nuevo, si quieres conocer opciones, menciónalo y tratamos ese tema.
Si requieres texto editable
Este es un caso más complejo. Por lo general, requerirás obtener un documento en archivo de texto, que puede ser TXT, DOC, DOCX, RTF, entre otros formatos.
Una de las consideraciones principales es saber si requieres mantener el flujo del texto, es decir, que los renglones estén conectados.
Uno de los grandes problemas al hacer captura de texto es que en los materiales impresos como libros, manuales, revistas, en la formación editorial suelen utilizar guiones para dividir palabras cuando no caben completas en la columna. En otro artículo podría darte algunas sugerencias para resolver este problema.
Las dos aplicaciones que yo utilizo, después de haber probado varias, son Adobe Acrobat Pro y ABBYY FineReader.
Ambas están disponibles tanto para sistemas Windows como para Mac.
Adobe Acrobat Pro tiene la opción de exportar el texto reconocido a un formato editable, como DOCX o DOC para Word o RTF. Además, incluirá las imágenes.

El software hará lo posible por mantener el formato del documento original, lo cual puede ser bueno o malo… porque requerirá de un trabajo adicional para ajustar el texto.
ABBYY FineReader es un software que permite múltiples opciones. Yo utilizo la versión 12, aunque actualmente van ya en la 14. Pero te muestro las opciones que ofrece:

Como ves, ABBYY FineReader permite múltiples opciones para trabajar con reconocimiento de texto, desde el trabajo directo con archivos PDF o de imagen, hasta la captura de texto en pantalla.

La opción de captura de texto en pantalla es muy útil cuando requieres una cantidad pequeña de texto o cuando es texto que no se puede seleccionar.
Las opciones y aplicaciones de ABBYY FineReader son extensas, por lo cual no las trataré ahora, pero si te interesa, solo menciónalo.
¿Existen otras opciones para reconocer texto? ¿Hay opciones gratuitas?
Sí, existen. Hay servicios web que permiten subir textos para reconocimiento (algunos son gratuitos, otros tienen limitaciones de volumen).
Además, por ejemplo, si tienes instalado Microsoft Office, puedes utilizar OneNote para reconocer texto.
Existen otras opciones, pero hablar de ellas daría para otro artículo, así que, si te interesa el tema, no olvides preguntar, sugerir y comentar.