Un error obliga a Intel a detener algunos envíos de Xeon Sapphire Rapids

Intel ha confirmado que ha suspendido los envíos de algunos de sus procesadores Xeon Sapphire Rapids de cuarta coexistentes correcto a un error descubierto recientemente. Recibimos un aviso de que Intel había detenido los envíos y, posteriormente de eso, supimos varios detalles sobre el problema de Dylan Patel, analista principal de SemiAnalysis, quien afirma que los envíos se han detenido para ciertos SKU desde mediados de junio. Nos hemos puesto en contacto con Intel acerca de esto, y la empresa ha emitido la próximo confesión para el equipo de tom:

“Nos hemos hexaedro cuenta de un problema en un subconjunto de procesadores Intel Xeon Medium Core Count (SPR-MCC) de cuarta coexistentes que podría hacer que el sistema deje de funcionar bajo ciertas condiciones y estamos investigando activamente este problema. El software y otras SKU de procesador Intel Xeon de cuarta coexistentes (es aseverar, XCC y HBM) no han presentado el problema. Hemos suspendido temporalmente algunos envíos de SPR MCC mientras ganamos confianza en la mitigación esperada del firmware y esperamos divulgar los envíos restantes en breve". — Portavoz de Intel en El material de Tom.

En respuesta a una pregunta de seguimiento, Intel asimismo nos dijo que no prórroga que la mitigación del firmware tenga ningún impacto en el rendimiento.

Los procesadores Sapphire Rapids de Intel se crean usando dos tipos de diseños subyacentes: el paquete XCC, que usa cuatro mosaicos de enumeración (chip) para crear un solo chip, y el paquete MCC, que usa un solo chip monolítico. Como se muestra en las diapositivas anteriores, el diseño MCC se usa para chips de hasta 32 núcleos, que son la fuente de grandes volúmenes de ventas para Intel, mientras que las variantes XCC se usan para chips Fulgor de entre 36 y 60 corazones.

"Intel ha enfrentado otra ronda de problemas de diseño con Sapphire Rapids MCC, la lectura más voluminosa de Sapphire Rapids. Los SKU de 2 y 4 sockets han detenido los envíos correcto a un problema de tiempo desde mediados de junio", dijo Patel.

Intel no ha confirmado que el problema se limite a los SKU de dos y cuatro sockets, sino que clasifica este problema como restringido a un "subconjunto" de SKU y no ha especificado cuándo comenzó la pausa en los envíos. Intel siquiera confirmó las afirmaciones de Patel de que el error está relacionado con el tiempo, ni nos aclaró cuál era el problema.

Un problema de tiempo puede incluir una serie de posibilidades que van desde la interconexión UPI hasta problemas de tiempo de instrucción, por lo que la verdadera naturaleza del error no está clara en este momento. Sabemos que Intel puede solucionar el problema con una corrección de firmware que aparentemente permanece en fuerza en este momento, por lo que el problema no requerirá una reelaboración o una nueva revisión/paso a paso para solucionarlo. Por otra parte, hexaedro que el nuevo firmware es una posibilidad adecuada, es posible que Intel no deba reemplazar las CPU que ya están en el campo, aunque eso podría representar un dolor de habitante de fuerza para sus clientes.

Intel ha recibido críticas generalizadas no solo por los pasos en aparente de la tecnología del nodo de proceso que retrasaron Sapphire Rapids, sino asimismo por problemas con su diseño y metodología de fuerza que provocaron más retrasos y muchos pasos nuevos (un rediseño generalmente último que requiere una nueva lectura de silicio para arreglar un problema). Sapphire Rapids de Intel ha estado plagado de rumores de que sus errores de diseño/comprobación llevaron a 12 pasos. Lógicamente, esto provocó serios retrasos en la producción y fechas de extensión perdidas.

Desde entonces, la compañía ha anunciado que planea adoptar un enfoque diferente para su flujo de trabajo de diseño, simulación y fuerza que solucionará estos problemas. Intel dice que estos ajustes entrarán en vigencia en la próxima coexistentes de procesadores Xeon.

Intel afirma que este nuevo error de Sapphire Rapids no se encontró mientras se "ejecutaba software comercialmente habitable", y obviamente no se detectó durante la fuerza. Este tipo de situación no es del todo desconocida; casi todos los chips complejos tienen erratas y errores conocidos y desconocidos que se solucionan con soluciones alternativas de firmware, compensador y software que pueden someter o eliminar esos problemas, y se envían de esa forma: esa es la naturaleza misma del diseño y la producción de semiconductores modernos.

Por ejemplo, la coexistentes de procesadores Skylake de Intel se envió con 53 erratas conocidas, y seis meses posteriormente, Intel enumeró otras 40 erratas. Otro ejemplo es el descubrimiento nuevo de que los chips EPYC Rome de AMD fallan posteriormente de 1044 días de disponibilidad. Algunos errores simplemente no se corrigen porque no se consideran lo suficientemente críticos como para corregirlos, o se corrigen con una combinación de firmware y software. Los errores más críticos a veces requieren un nuevo paso para corregirse, que es el peor de los casos. A Dios gracias para Intel, ese no parece ser el caso aquí.

Sin secuestro, aunque los errores no son infrecuentes, es raro que este tipo de errores provoquen que los envíos se detengan, lo que implica que es más que un simple error de floresta. Intel no dijo cuándo planea reanudar los envíos de Sapphire Rapids, pero actualizaremos nuestra cobertura a medida que sepamos más.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir