Google indexa documentos escaneados

Ariel Palazzesi . Vista 3642 veces

Google continúa detrás de su objetivo de indexar toda la red. Sea lo que sea, nada está quedando fuera de las garras del buscador. Porque, a partir de ahora, también se podrán realizar búsquedas dentro de los textos que se encuentran en documentos del tipo PDF, gracias al uso de un software OCR, capaz de convertir imágenes en texto.


  • OCR, una tecnología bastante antigua y probada OCR, una tecnología bastante antigua y probada

    A diferencia de lo que ocurre con los documentos de texto estándar, o con formato HTML, los archivos en formato PDF no pueden ser indexados directamente por los robots de búsqueda (comúnmente llamados arañas) de Google. Es cierto que desde hace mucho Google indexaba PDF, pero lo hacía leyendo la metadata de los mismos, no su contenido. Pero ahora, y gracias a un procedimiento llamado Reconocimiento Óptico de Caracteres (u OCR, por Optical character recognition), una tecnología bastante antigua y probada, el buscador puede convertir las palabras que se encuentran dentro de una imagen en texto plano.

    Google emplea su propio software de código abierto OCRopus Google emplea su propio software de código abierto OCRopus

    Google emplea su propio software de código abierto OCRopus, que a su vez está basado en una aplicación desarrollada por HP llamada Tesseract. Dicha tecnología le permitirá a la empresa indexar documentos previamente escaneados, que contengan una mezcla de texto e imágenes. El motor de reconocimiento de texto es bastante bueno, por lo que se supone que los resultados que obtengamos en el buscador también lo serán.

    A pesar de lo reciente de la noticia, algunas universidades y organizaciones que habitualmente publican documentos  PDF en línea ya hicieron notar que esta tecnología podría hacer peligrar la privacidad, ya que el material en ese formato que cuente con derechos de autor (o información personal) será mucho más fácil de usar por personas que no tienen el derecho correspondiente. Como ocurre a menudo, ante una nueva herramienta se plantean algunas incógnitas, pero es de suponer que, en general, ésta noticia será bienvenida por los internautas.

    Via  pcmag.com

¿Y tú, qué opinas?

  • #1 <a href="../../foro/member.php?u=11713" target="_self">muerte852</a>
    muerte852 lunes, 03 de noviembre de 2008, 19:03

    Espero que funcone bien, pero seguro que sera asi porque lo0 que crea google funciona muy bien.

    Responder >> Attention Minus Plus Votos: 1 de 1
  • #2 Rbn_3D
    Rbn_3D lunes, 03 de noviembre de 2008, 22:14

    Es raro que lo hagan ahora, sabiendo que los OCR datan de la época de Jesucristo por lo menos.

    Responder >> Attention Minus Plus Votos: 0 de 0
  • #3 dantemn
    dantemn martes, 04 de noviembre de 2008, 20:24

    no se decia indizar?

    Responder >> Attention Minus Plus Votos: 0 de 0
  • #4 paelams
    paelams jueves, 06 de noviembre de 2008, 05:08

    #3Bueno siempre lei la palabra indexar,eso de que el OCR sea muy antiguo y que recien lo haya implemnetado en sus busquedas google es de esperar porque seguro ellos estan creando nuevos algoritmos mas eficientes para el OCR e idelaes para el buscado lo cual no parece ser tan facil de conseguir

    Responder >> Attention Minus Plus Votos: 0 de 0
  • Cargando...Cargando...

  • nuevo comentario
    Nombre

    Campo obligatorio

    Email

    Escriba una dirección de correo electrónico con el formato sunombre@ejemplo.com.

    Campo obligatorio

 
Ir arriba