in

Google, pronto en tiempo real

Google sigue mejorando sus productos. Parece que el futuro motor de búsqueda de la compañía de Mountain View funcionará en “tiempo real”, indexando los contenidos de la red mediante sindicación ATOM en cuestión de segundos. El nuevo sistema, conocido como PuSH, promete hacer de internet un lugar más “vivo”, reflejando segundo a segundo lo que ocurre en sitios de noticias y redes sociales. Según los responsables de este cambio, la adopción del nuevo protocolo mejorará enormemente la eficacia con la que el buscador actualiza el contenido de su base de datos. ¿Cómo será el Google del futuro?

A pesar de lo bien que funciona el motor de búsqueda de Google -sobre todo si tenemos en cuenta la astronómica cantidad de páginas que se crean (y abandonan) cada día en la red-, el sistema que emplea para crear sus índices puede ser mejorado. Uno de los “puntos flacos” de su sistema es el tiempo que transcurre entre que una web modifica alguno de sus contenidos y el momento en que dicho cambio aparece reflejado en los resultados que arrojan las búsquedas. Algunas páginas demoran una o dos horas hasta ver correctamente indexado su nuevo contenido, mientras que otras deben esperar días o -en el peor de los casos- hasta semanas. En general, dicha demora no es demasiado grave, pero si tu sitio es un portal de noticias o una red social, una demora de solo 30 minutos puede ser inaceptable.

Para hacer su magia, Google utiliza una clase de software al que comúnmente se lo conoce como “araña”. Se trata de un programa que va añadiendo contenidos a su motor de búsqueda a medida que recorre página web tras página web de forma automática, a la vez que visita las que están enlazadas desde ellas, siguiendo los enlaces presentes. No es precisamente el método más inteligente del mundo para hacer este trabajo -al fin y al cabo, se trata de una estrategia de “fuerza bruta” en la que no se tienen en cuenta un montón de factores que podrían optimizar su eficiencia- pero funciona bastante bien. Gran parte del éxito se debe a que Google utiliza para esta tarea un número impresionante de ordenadores distribuidos por todo el mundo, que se reparten el trabajo. Pero todo eso no evita que se revisen una y otra vez páginas que no reciben prácticamente cambios, y se demore en analizar aquellas que se actualizan permanentemente. ¿Cual es el motivo de esta deficiencia? Simplemente, Google no tiene forma de saber si una página ha cambiado hasta que la visita y la compara con la versión de ella que tiene almacenada en su “cache”. Si a esto le sumamos el elevado número de páginas a visitar, llegamos al estado actual, en que las más afortunadas  reciben la “visita de la araña” varias veces al día mientras que otras solo lo hacen una o dos veces a la semana. Afortunadamente, esto podría cambiar en el corto plazo.

El principal problema es la ausencia de un mecanismo que “avise” a Google que el contenido de una página ha sido modificado. Para solucionarlo, Bret Slatkin, quien ostenta el cargo de desarrollador jefe de PuSH, un acrónimo de PubSubHubbub, ha confirmado la implementación de  este nuevo protocolo de sindicación en tiempo real en el buscador. No se trata de nada nuevo: algunas empresas, como Technorati, realizan la indexación de cada página en el momento que es creada. Se necesita un sistema rápido, ágil y -sobre todo- normalizado y abierto, que permita a las páginas enviar una señal al buscador cada vez que se crea un contenido nuevo. Google ha hecho algo así en el pasado, cuando puso en marcha su Google Blogsearch. Pero si bien lograba indexar el contenido que los medios generaban constantemente, no tuvo en cuenta el advenimiento de nuevos canales de comunicación como el microblogging. PuSH debería solucionar todo esto. Como explica Slatkin, en este protocolo existen tres entidades principales: las que publican contenidos, los suscriptores que reciben esos datos, y los nodos. La diferencia con los anteriores sistemas es que en lugar de ser los suscriptores los encargados de comprobar periódicamente si el feed ha cambiado, el protocolo PubSubHubbub provee a los nodos de la capacidad de avisar a sus suscriptores de la existencia de algun tipo de contenido nuevo, permitiendo a las actualizaciones propagarse de forma casi instantánea.

Dentro de este esquema, Google simplemente seria un subscriptor más de los nodos PubSubHubbub de aquellas páginas que necesiten ser indexadas en tiempo real. Por supuesto, las “arañas” seguirían existiendo, ya que se encargan -por ejemplo- de “descubrir” sitios nuevos. Pero PuSH mantendría los índices de Google mucho más al día. Lo interesante de todo esto es que será un protocolo abierto, por lo que otros motores de búsqueda podrán utilizar los mismos feeds para ofrecer resultados actualizados también.  ¿Constituye PuSH la solución definitiva al problema de la indexación de internet? Por supuesto que no. Por ejemplo, no ayudará demasiado con aquellas páginas que se construyen dinámicamente al ser consultadas. Pero en general, PuSH hará de Google y de cualquier otro buscador que se apoye en este estándar algo muy diferente. Y mejor. ¿Que te parece?

Reportar

¿Qué te pareció?

Escrito por Ariel Palazzesi

4 Comments

Leave a Reply
  1. Me gustaría mucho que google implementara un simulador como el que incluye Earth pero para Street View y asi poder conocer muchos lugares del mundo de forma divertida, como si estuvieras conduciendo un coche.

  2. Demandar a Google por monopolio de busquedas: aprox. 100 millones de dolares.

    Que Google implemente una tecnologia, para aumentar la precision de las busquedas, y que aparte cualquiera pueda usarla: No tiene precio.

    y que aun implementando estas mejoras, "tu pagina de precios" siga siendo mediocre: No tiene madre!!.

  3. Estaria bien que, insisto por enésima vez, que implementen una especie de "chat" con gente que busca el mismo contenido que tú en ese momento, asi por lo menos si no encuentras algo alguien "te hecha la mano" o al revés (y claro que fuera opcional, no a todos tiene por que agradarles el concepto)…. creo que eso seria mas util que saber que hace la "gente popular" en sus redes sociales… ah y que mejoren su algoritmo, antes funcionaba mejor, un dia estuve buscando BeOS (el extinto sistema operativo de Be Inc.) y Google me decia "Tal vez estas buscando: Besos", por las barbas de Stallman que es eso? XD

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Red Star: Distro de linux norcoreana

Confirmado: El asesino fue el meteorito