Construir una supercomputadora siempre es un desafío, pero crear el primer sistema de clase exaescala de la industria es un encuentro con algo completamente inesperado y requiere mucho trabajo con hardware y software. Desafortunadamente, eso podría suceder con la supercomputadora Frontier del Laboratorio Nacional de Oak Ridge, que apenas puede durar un día sin numerosas fallas de hardware.
Frontier de ORNL es el primer sistema de la industria diseñado para ofrecer un rendimiento máximo de hasta 1685 FP64 ExaFLOPS utilizando los procesadores EPYC Trento de 64 núcleos de AMD, las GPU de cómputo Instinct MI250X y las interconexiones Slingshot de HPE a 21 MW de potencia. HPE construyó el sistema y usó el Cray EX (se abre en una nueva pestaña) arquitectura diseñada para aplicaciones escalables, principalmente para supercomputadoras ultrarrápidas.
Si bien en el papel la supercomputadora Frontier se ve excepcionalmente bien y se entregaron partes de hardware del sistema de la máquina, parece que los problemas de hardware impiden que la máquina entre en funcionamiento y esté disponible para los investigadores que necesitan un rendimiento de aproximadamente 1 FP64 ExaFLOPS.
"Estamos trabajando en los problemas de hardware y asegurándonos de entender (lo que son)", dijo Justin Whitt, director del programa de Oak Ridge Leadership Computing Facility (OLCF), en una entrevista con InsideHPC. (se abre en una nueva pestaña). “Vas a tener fallas en esta escala. El MTBF en un sistema de este tamaño es de horas, no de días.
Los rumores de posibles fallas en el hardware de Frontier han estado circulando desde hace algún tiempo. Algunos dijeron que el sistema estaba teniendo problemas con la interconexión de Slingshot, según otro InsideHPC (se abre en una nueva pestaña) historia. Además, otros han informado que las GPU de cómputo Instinct MI250X de AMD no son tan confiables como se esperaba este año. Tenga en cuenta que la versión X, con una mayor cantidad de procesadores de flujo y relojes más altos, solo está disponible para ciertos clientes.
El Sr. Whitt no confirmó que el sistema tuviera problemas particulares con Instinct o Slingshot, pero insistió en que la máquina sufría numerosos problemas de hardware.
"Muchos de los desafíos se centran en estos [GPUs], pero esa no es la mayoría de los desafíos que enfrentamos”, dijo el jefe de OLCF. "Ese es un desglose bastante bueno entre los culpables comunes de las fallas de las piezas que han sido una gran parte de esto. No creo que en este momento tengamos muchas preocupaciones sobre los productos de AMD".
La supercomputadora Frontier de Oak Ridge National Laboratory no es, de lejos, el único sistema que utiliza la arquitectura Cray EX de HPE con interconexiones Slingshot, los procesadores EPYC de AMD y las GPU de cómputo Instinct de AMD. Por ejemplo, la supercomputadora finlandesa Lumi (Cray EX, EPYC Milan, GPU de cómputo Instinct MI250X) ofrece un rendimiento máximo de 550 PetaFLOPS y está clasificada oficialmente como la tercera supercomputadora más poderosa del mundo. Quizás el problema sea válido con la escala de la máquina que utiliza 60 millones de piezas en total.
Solo el tiempo dirá si la supercomputadora Frontier que originalmente prometió estar en línea en 2022 estará disponible para los investigadores a partir de 2023, dado que aún no se ha implementado oficialmente.
Deja una respuesta