miércoles, 10 de febrero de 2010
Ayúdanos a crecer, haz NeoTeo tu página de inicio RegistrarseIniciar sesión

Google indexa documentos escaneados

Por: Ariel Palazzesi  @  lunes, 03 de noviembre de 2008  Nota vista 1934 veces

Google continúa detrás de su objetivo de indexar toda la red. Sea lo que sea, nada está quedando fuera de las garras del buscador. Porque, a partir de ahora, también se podrán realizar búsquedas dentro de los textos que se encuentran en documentos del tipo PDF, gracias al uso de un software OCR, capaz de convertir imágenes en texto.

¿te interesa?
11 0
11 votos
OCR, una tecnología bastante antigua y probada

A diferencia de lo que ocurre con los documentos de texto estándar, o con formato HTML, los archivos en formato PDF no pueden ser indexados directamente por los robots de búsqueda (comúnmente llamados arañas) de Google. Es cierto que desde hace mucho Google indexaba PDF, pero lo hacía leyendo la metadata de los mismos, no su contenido. Pero ahora, y gracias a un procedimiento llamado Reconocimiento Óptico de Caracteres (u OCR, por Optical character recognition), una tecnología bastante antigua y probada, el buscador puede convertir las palabras que se encuentran dentro de una imagen en texto plano.

Google emplea su propio software de código abierto OCRopus

Google emplea su propio software de código abierto OCRopus, que a su vez está basado en una aplicación desarrollada por HP llamada Tesseract. Dicha tecnología le permitirá a la empresa indexar documentos previamente escaneados, que contengan una mezcla de texto e imágenes. El motor de reconocimiento de texto es bastante bueno, por lo que se supone que los resultados que obtengamos en el buscador también lo serán.

A pesar de lo reciente de la noticia, algunas universidades y organizaciones que habitualmente publican documentos  PDF en línea ya hicieron notar que esta tecnología podría hacer peligrar la privacidad, ya que el material en ese formato que cuente con derechos de autor (o información personal) será mucho más fácil de usar por personas que no tienen el derecho correspondiente. Como ocurre a menudo, ante una nueva herramienta se plantean algunas incógnitas, pero es de suponer que, en general, ésta noticia será bienvenida por los internautas.



Tags: google OCR OCRopus PDF 
Redes sociales:
DiggDigg | MenéameMenéame | Deliciousdel.icio.us | FresquiFresqui | Mr.WongMister Wong | WikioWikio
Artículo Siguiente
Radus: Interfaz multimedia para tu navegador
Artículo Anterior
Sí hay pruebas de que causamos el calentamiento
CopyRight
Prohibida su copia total con o sin fines comerciales. Copias parciales deben citar la fuente.

 

URL Trackback para esta noticia:
Votos: 1 de 1
homerouch
homerouch
homerouch
03/11/2008
19:03:05
#1   Espero que funcone bien, pero seguro que sera asi porque lo0 que crea google funciona muy bien.
     Responder 
Votos: 0 de 0
Rbn_3D
Rbn_3D
Rbn_3D
03/11/2008
22:14:11
#2   Es raro que lo hagan ahora, sabiendo que los OCR datan de la época de Jesucristo por lo menos.
     Responder 
Votos: 0 de 0
dantemn
dantemn
dantemn
04/11/2008
20:24:41
#3   no se decia indizar?
     Responder 
Votos: 0 de 0
paelams
paelams
paelams
06/11/2008
5:08:42
#1   Bueno siempre lei la palabra indexar,eso de que el OCR sea muy antiguo y que recien lo haya implemnetado en sus busquedas google es de esperar porque seguro ellos estan creando nuevos algoritmos mas eficientes para el OCR e idelaes para el buscado lo cual no parece ser tan facil de conseguir
     Responder 
 
 
Datos  Login Registrarse
Usuario
   
Email
Website
 
Nuevo comentario:


Tags HTML permitidos: br
 

Síguenos en TwitterAgréganos a tu RSS

 

Autores