Una falla en los chips Atom C2000 deja servidores y routers fuera de combate

Cualquier bug sobre una pieza de hardware se gana un lugar en las noticias automáticamente no sólo por su rareza, sino también por su potencial de daño. En muchos casos, las fallas pueden ser corregidas o contenidas a través de una actualización del BIOS y/o firmware, sin embargo, esta vez no será suficiente. Microservidores, routers, firewalls, unidades NAS y otros dispositivos similares han estado cayendo como moscas en los últimos meses, y todas las flechas apuntan a un problema en la serie C2000 de procesadores Atom que Intel lanzó en 2013.

La historia comenzó con el reporte de ganancias de Intel para lo que fue el último trimestre de 2016. El gigante de Santa Clara tuvo un año bastante sólido en lo financiero, pero el llamado Grupo de Centros de Datos registró una merma del 14 por ciento debido a cierto «problema de calidad» en uno de sus productos. Información adicional reveló que el problema se manifestó a través de fallas detectadas en una serie específica de procesadores, y aunque el reporte sugiere una «corrección menor» en el diseño, este grupo en particular se vio forzado a crear una reserva adicional (léase «fondo de emergencia») para lidiar con la situación.

Mucho hardware de red depende del C2000. Esperamos que Intel y los fabricantes se muevan rápido.

La serie afectada es la Intel Atom C2000, que posee variantes en dos, cuatro y ocho núcleos. Estos SoCs son utilizados en plataformas con una alta integración, desde microservidores y unidades NAS hasta firewalls, routers, y otros dispositivos de red. Al principio, las fallas no sugerían un problema del silicio, y las compañías perjudicadas mantuvieron un extraño silencio de radio a la hora de confirmar o negar la relación entre el bug y los procesadores (tal vez debido a un acuerdo de confidencialidad forzado por Intel), pero había un dato consistente: Los equipos dejaban de funcionar aproximadamente a los 18 meses. En ese punto los ingenieros comenzaron a sospechar sobre una posible degradación, lo que llevó a las salidas en el bus del reloj LPC (Low Pin Count). Cuando las señales de reloj LPC_CLKOUT0 y/o LPC_CLKOUT1 (no es necesario que fallen ambas) dejan de funcionar, el sistema es incapaz de volver a iniciarse correctamente.

En otras palabras, los Atom C2000 son una bomba de tiempo. ¿Se puede solucionar? Ahora que el problema fue identificado, la respuesta es obviamente si, pero el proceso no es nada sencillo. Los chips Atom C2000 son BGA, o sea que cualquier reparación demandará un trabajo directo sobre la placa base, o su reemplazo completo. Aaeon, ASRock, Cisco, Dell, HP, Infortrend, iXsystems, Lanner, NEC, Newisys, Netgate, Netgear, Quanta, Seagate, Sophos, Supermicro, Synology y ZNYX Networks son algunas de las compañías que utilizan al C2000 en sus productos. Hasta aquí, el «control de daños» ha sido decepcionante. Esperamos que instalen programas de reemplazos a largo plazo. El hardware afectado no es precisamente económico que digamos…

Deja tu voto

2 puntos
Upvote Downvote

Total votes: 2

Upvotes: 2

Upvotes percentage: 100.000000%

Downvotes: 0

Downvotes percentage: 0.000000%

  • Juan Carlos

    A mi más bien me parece que estában programados para fallar pero esta vez sucedió antes de tiempo y les llovieron las quejas y reclamos. Culpar a un error de diseño solo es un excusa.