in

Google OCR API: De imagen a texto

Hace unos pocos días Google activó una función adicional para el API de Google Docs. El paquete de aplicaciones aún carece de ciertas funciones, pero el agregado de un sistema de reconocimiento óptico de caracteres lo vuelve un poco más completo. Ahora es posible importar una imagen que contenga texto, y a través del OCR de Google Docs, obtener el texto listo para ser editado en un nuevo documento. La idea es excelente, pero como sucede con todos los sistemas de OCR, la implementación de Google todavía necesita varios ajustes, especialmente sobre la calidad de la detección.

¿Recuerdan al escáner de mano? Era un aparato muy similar a esas pequeñas aspiradoras manuales que venden por televisión, y había que pasarlo sobre cada hoja para "detectar" su texto y digitalizarlo. Los resultados dependían exclusivamente de la calidad del texto en la hoja, del escáner, y del software utilizado, pero en la mayoría de los casos es muy común ver letras "l" minúsculas o "I" mayúsculas reemplazados pornúmeros "1" o signos de admiración "!". La calidad de los OCR ha mejorado al mismo tiempo que la popularidad del escáner ha caído. Esto se debe a la digitalización general de documentos e imágenes. Es muy común encontrar versiones en formato PDF de ciertos documentos, mientras que las cámaras digitales hicieron lo suyo con las fotos. El escáner se ha convertido en un dispositivo secundario, y ahora se lo puede ver integrado a impresoras en los llamados dispositivos "multifunción".

Sin embargo, el OCR también puede utilizarse en imágenes que ya hayan sido digitalizadas y que contengan texto. Ya hemos visto un ejemplo de esto aquí en NeoTeo, el cual funciona bastante bien. Pero Google ha decidido traer al frente su propio sistema de OCR asociado a Google Docs a través de su API. Si tienes un documento en versión digital del cual deseas extraer su texto, puedes procesar la imagen (o imágenes) a través del OCR. En la misma página se ofrece una imagen de muestra para probar sus capacidades, pero además de hacer eso, creamos un texto con Paint.NET y lo guardamos como imagen. Lamentablemente, los resultados fueron malos. Por alguna razón el OCR de Google no detectó ni una sola palabra de nuestro texto guardado como imagen. Utilizamos una fuente Arial 12 y evitamos cualquier símbolo extraño, pero no obtuvimos resultados positivos. En cambio, el documento de muestra de Google fue convertido, aunque no estuvo libre de errores.

Si uno tiene que corregir el formato del texto una vez que fue importado a Google Docs, es probable que tarde un tiempo considerable, y en algunos casos puede que tarde más que escribirlo todo de nuevo. La idea de Google de agregar un sistema de OCR a Google Docs es muy buena, pero todavía necesita mucho trabajo. El servicio Free OCR sólo cometió algunos errores de espaciado y algunas sustituciones de letras con nuestro texto, mientras que con Google no pudimos importar ni una sola palabra. Quienes lo utilicen no solo buscarán convertir hojas enteras de documentos, sino que intentarán extraer texto de cada imagen que puedan encontrar, por lo que el gigante de Mountain View deberá trabajar duro en mejorar la detección de texto. Si tenemos en cuenta cómo trabaja Google, es probable que no pase mucho tiempo para ver mejores resultados.

Reportar

¿Qué te pareció?

Escrito por Lisandro Pardo

7 Comments

Leave a Reply
  1. Las aplicaciones de google como el Doc cada dia son mas utiles y nos ahorra tiempo y espacio, porque todo es manejado por medio del correo electronico de gmail. El truco de esta publicacion de OCR API en neoteo no la sabia apenas me percate hoy de su funcionalidad, gracias 🙂

    Saludos!

    • Con un diccionario (si se sabe el idioma del texto) se puede saber si es m o rn, por lo menos, en la mayoría de los casos.

      En castellano no se si existe alguna palabra que contenga una r seguida de una m.

      • Pienso en palabras como "arma" y "terminal", seguro que hay otras, y es probable que los sistemas OCR cometan errores con ellas también.

    • No es lo mismo, un sistema CAPTCHA está limitado a X letras y de X estilo. En cambio, en un OCR te puedes encontrar cualquier cosa, que desconoces.

  2. WOW, por mis estudios yo tengo que transcribir mucho texto de los libros, hacer resumenes y un montón de cosas, este OCR me viene como anillo al dedo.

    Otro usuario feliz y satisfecho con los servicios de google, en cuanto a los errores se corrigen con algún corrector de texto.

    que buen servicio!!!
    🙂

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Los nuevos conceptos de Sony

El viernes bombardeamos la Luna (recordatorio)