in Internet

Google indexa documentos escaneados

por Ariel Palazzesi 3 noviembre, 2008, 5:53 pm

Google continúa detrás de su objetivo de indexar toda la red. Sea lo que sea, nada está quedando fuera de las garras del buscador. Porque, a partir de ahora, también se podrán realizar búsquedas dentro de los textos que se encuentran en documentos del tipo PDF, gracias al uso de un software OCR, capaz de convertir imágenes en texto.

OCR, una tecnología bastante antigua y probada

A diferencia de lo que ocurre con los documentos de texto estándar, o con formato HTML, los archivos en formato PDF no pueden ser indexados directamente por los robots de búsqueda (comúnmente llamados arañas) de Google. Es cierto que desde hace mucho Google indexaba PDF, pero lo hacía leyendo la metadata de los mismos, no su contenido. Pero ahora, y gracias a un procedimiento llamado Reconocimiento Óptico de Caracteres (u OCR, por Optical character recognition), una tecnología bastante antigua y probada, el buscador puede convertir las palabras que se encuentran dentro de una imagen en texto plano.

Google emplea su propio software de código abierto OCRopus, que a su vez está basado en una aplicación desarrollada por HP llamada Tesseract. Dicha tecnología le permitirá a la empresa indexar documentos previamente escaneados, que contengan una mezcla de texto e imágenes. El motor de reconocimiento de texto es bastante bueno, por lo que se supone que los resultados que obtengamos en el buscador también lo serán.

A pesar de lo reciente de la noticia, algunas universidades y organizaciones que habitualmente publican documentos PDF en línea ya hicieron notar que esta tecnología podría hacer peligrar la privacidad, ya que el material en ese formato que cuente con derechos de autor (o información personal) será mucho más fácil de usar por personas que no tienen el derecho correspondiente. Como ocurre a menudo, ante una nueva herramienta se plantean algunas incógnitas, pero es de suponer que, en general, ésta noticia será bienvenida por los internautas.

Viapcmag.com

Reportar

Buscadores Internet

¿Qué te pareció?

0 Points

Voto Positivo Voto Negativo

Escrito por Ariel Palazzesi

4 Comments

Deja una respuesta Cancelar la respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Sí hay pruebas de que causamos el calentamiento

Radus: Interfaz multimedia para tu navegador

Populares

Geeky ¡Pero qué c...! Thug life No me gusta

in Artilugios

«Disc rot», o por qué tus discos ópticos pueden morir

Espero que jamás encuentres esto…

Todos los discos ópticos requieren un cuidado especial. Se trata de algo básico, pero la mayoría de los usuarios ignora ese detalle, y como si fuera poco, lo cierto es que no necesitan de nuestra ayuda para caerse a pedazos. La supuesta invulnerabilidad de los discos ópticos se convierte en una simple anécdota frente a […] More

por Lisandro Pardo 20 abril, 2024, 6:06 am
Geeky Una monería

in Hardware

Short Stack: La Nintendo Wii más pequeña del mundo

Nada de emulación aquí: Este proyecto usa hardware original

La idea de miniaturizar consolas de videojuegos no es nueva que digamos. Previamente hemos visto dos versiones diferentes de la Nintendo GameCube, y convertir a la Nintendo 64 en portátil es un hack muy popular, pero ahora es el turno de la Nintendo Wii, y es muy probable que este diseño sea el más compacto […] More

por Lisandro Pardo 21 abril, 2024, 5:25 am
Thug life

in Hardware

Cómo crear un ratón open source

¿Cansado de las ofertas comerciales? Tal vez esto ayude

Si sientes que los ratones han perdido calidad en los últimos años, no estás solo. Los interruptores mueren de la noche a la mañana, no hay limpieza que los ayude, y nunca falta un sensor de mala calidad. Alexander Nadeau, también conocido como «wareya» en GitHub y YouTube, explica que ya va por su tercer […] More

por Lisandro Pardo 22 abril, 2024, 5:50 pm
Trending Geeky

in Entretenimiento

Tráiler Flash: Deadpool & Wolverine (nuevo trailer)

Basta de teasers: Aquí está lo bueno

Deadpool & Wolverine es la única película del universo cinemático para todo el año, pero con estos dos en la pantalla… ¿realmente necesitamos más? La sensación de «Time’s Up» para el MCU es más fuerte que nunca, y el giro hacia la calidad que busca Disney necesita materializarse de una vez. Esta es la carta […] More

por Lisandro Pardo 22 abril, 2024, 6:38 pm
Geeky

in Entretenimiento

Conoce al modelo original del Enterprise que estuvo desaparecido por décadas

Apareció en eBay de la nada… y la historia tiene final feliz

Toda franquicia famosa de cine y televisión tiene sus misterios, sus rumores, sus objetos desaparecidos. Star Trek no es la excepción, y si consideramos que la serie original estuvo casi tres años en el aire a finales de los ’60… digamos que hay mucho por descubrir. Una de las novedades más importantes surgió en noviembre […] More

por Lisandro Pardo 23 abril, 2024, 6:12 pm
Trending Thug life Geeky Una monería

in Hardware

Los cartuchos de Super Nintendo, como nunca los has visto

Protecciones, memorias, chips especiales, y más

Los cartuchos de videojuegos pueden ser muy simples, con apenas un chip para almacenar el código y un par de condensadores que filtran ruido. Sin embargo, con el paso del tiempo lograron convertirse en «tarjetas de expansión», sumando memoria adicional y procesadores especiales para garantizar el rendimiento de juegos avanzados. La Super Nintendo es un […] More

por Lisandro Pardo 24 abril, 2024, 5:24 am

Tráiler Flash: Trap

Tu juego gratis del fin de semana: Industria

Mejorar YouTube es más fácil que nunca con Enhancer for YouTube

Thermonator: El perro-robot con lanzallamas que puedes comprar hoy

Tiny11Builder, nuevo script para crear una versión liviana de Windows 11

Los cartuchos de Super Nintendo, como nunca los has visto

Google indexa documentos escaneados

¿Qué te pareció?

Escrito por Ariel Palazzesi

4 Comments

Deja una respuesta Cancelar la respuesta

Top 10 – Los bulos más memorables de Google

Microsoft y Yahoo se unen contra Google

Microsoft compra Yahoo!

Google agrega búsquedas por voz a iPhone

YouTube y Hollywood: Comienza una nueva era

Google Chrome: Más trucos y paranoia

StockCake: Banco de imágenes generadas con inteligencia artificial

After the Beep: Correo de voz anónimo en la Web

WebTV: Internet para la televisión… ¡en 1996!

Cómo se enviaba un e-mail en 1984

«El misil nuclear de mi vecino»

Internet of Shit: Pesadillas tecnológicas, más escatológicas que nunca

Cómo saber el nombre de una película

Los mejores buscadores de la Deep Web

Cómo leer artículos de pago gratis

Los mejores lugares para descargar fondos de pantalla con movimiento

Lectulandia: Descargar libros gratis sin registrarse

«Traductor élfico» en línea: Tengwar y Sindarin a tu alcance

Sí hay pruebas de que causamos el calentamiento

Radus: Interfaz multimedia para tu navegador

«Disc rot», o por qué tus discos ópticos pueden morir

Short Stack: La Nintendo Wii más pequeña del mundo

Cómo crear un ratón open source

Tráiler Flash: Deadpool & Wolverine (nuevo trailer)

Conoce al modelo original del Enterprise que estuvo desaparecido por décadas

Los cartuchos de Super Nintendo, como nunca los has visto

¿Qué te pareció?

4 Comments

Deja una respuesta Cancelar la respuesta

Hemos detectado un bloqueador de publicidad.

Entrar

Sign In

¿Has olvidado la clave?

Your password reset link appears to be invalid or expired.

Entrar

Privacy Policy

Agregar a Colección

No Collections