miércoles, 10 de febrero de 2010
Ayúdanos a crecer, haz NeoTeo tu página de inicio RegistrarseIniciar sesión

Dotbot: Índice completo y abierto de toda la red

Por: Lisandro Pardo  @  jueves, 05 de febrero de 2009  Nota vista 2201 veces

Las guías telefónicas son consideradas como piezas de museo en estos días de digitalización rampante. Con datos mínimos alguien puede averiguar el número telefónico de otra persona, gracias a las capacidades de la red de redes. Ahora, ¿qué tan loco sería pensar en una guía, pero de todas las direcciones de Internet existentes? No es una locura, dicen estos sujetos de Seattle.

¿te interesa?
12 0
12 votos

El sitio Dotbot presenta un proyecto de proporciones siderales: Generar un índice que contenga la dirección de cada sitio web existente en la red. De acuerdo a sus desarrolladores, sólo unas pocas corporaciones contadas con los dedos tienen un índice completo y con información útil, y que por supuesto no está disponible bajo ninguna circunstancia para el usuario común. Ahí es en donde entra Dotbot con su masivo "webcrawling", consultando y registrando cada página que encuentra, para que cualquier usuario pueda acceder a él.

El proyecto está activo desde junio del año pasado, y llevan indexadas más de siete mil millones de páginas. Estamos seguros de que quedan muchísimas direcciones más, y obviamente no se pueden incluir a aquellas protegidas contra cualquier clase de webcrawling. Incluso en el mismo sitio de Dotbot explican cómo bloquear un sitio del rastreo a través de un simple archivo robots.txt. Ya hay una gran cantidad de información en la "guía" que esta gente ha generado. ¿Quieres descargarla? Puedes hacerlo sin ningún problema, pero prepárate para hacer un poco de espacio en tu disco duro. Hasta ahora, el tamaño del índice alcanza los 68 gigabytes.

Porcentaje de los códigos HTTP devueltos por los sitios indexados

La razón para hacer algo así puede ser muy sencilla, o muy siniestra. La gente detrás de Dotbot declara que lo hace solamente para hacer de Internet un lugar más abierto y libre, en el cual todos los usuarios puedan acceder a un índice de esta clase. Pero al mismo tiempo no podemos descartar la sensación de que es demasiada información concentrada en un solo lugar. Esperamos que sepan manejar dicha información con responsabilidad, y que no caiga en malas manos.



Artículo Siguiente
Ropa post-apocalíptica (Moda "Fin del Mundo")
Artículo Anterior
PlayNow: Descarga de juegos clásicos gratis
CopyRight
Prohibida su copia total con o sin fines comerciales. Copias parciales deben citar la fuente.

 

URL Trackback para esta noticia:
Votos: 0 de 0
andres
andres
andres
05/02/2009
12:08:04
#1   Disculpen mi ignorancia, pero para que serviria dicha información?
     Responder 
Votos: 0 de 0
Avengis
Avengis
Avengis
05/02/2009
12:48:00
#2   No le acabo de ver el punto... para eso estan ya los servidores DNS no?
     Responder 
Votos: 0 de 0
scmaverick
scmaverick
scmaverick
05/02/2009
15:15:09
#3   A ver pensemos, estas sentado buscando informacion sobre X cosa, buscas en google pero te aparecen miles de entradas escuetas que simplemente tienen referencia a esa palabra que buscas, entras a 15 y no encuentras nada interesante, entonces te acuerdad de dotbot y decides darle una mirada, buscas tu palabra y te aparecen decenas de paginas que no solo tienen referncia a tu pagina sino que se DEDICAN a eso, quiza entre otras cosas.
Es solo una alternativa de buscador, es como mirar las paginas amarillas de la web, en veaz de numeros telefonicos de locales, casas o empresas, ves su sitio web.
Salu2
     Responder 
Votos: 0 de 0
Derkeshtai
Derkeshtai
Derkeshtai
06/02/2009
5:35:22
#4   Suponiendo que el robot respete la entrada robots.txt o las páginas cifradas

o qué? un ataque por fuerza bruta o aprovechando algúno que otro bug de MySQL, Apache, PHP, ASP o win... er, eso despues; sí estaría muy de preocupar concentrar tanta información en un sitio @_@
     Responder 
 
 
Datos  Login Registrarse
Usuario
   
Email
Website
 
Nuevo comentario:


Tags HTML permitidos: br
 

Síguenos en TwitterAgréganos a tu RSS

 

Autores