Cuando Nvidia presentó su familia de unidades de procesamiento de gráficos Ada Lovelace a principios de esta semana, se centró principalmente en su GPU AD102 de gama alta y la tarjeta gráfica insignia GeForce RTX 4090. No reveló demasiados detalles sobre sus chips gráficos AD103 y AD104. Afortunadamente, Nvidia ha publicado hoy su documento técnico de Ada Lovelace, que contiene una gran cantidad de datos sobre las nuevas GPU y llena muchos de los vacíos. Hemos actualizado las GPU de la serie RTX 40, todo lo que sabemos, con los nuevos detalles, pero aquí está el resumen de información nueva e interesante.
Grandes GPU para grandes juegos
Ya sabemos que la AD102 de gama alta de Nvidia es una GPU de 608 mm^2 equipada con 76 300 millones de transistores, 18 432 núcleos CUDA y 96 MB de caché L2. También sabemos que la AD103 es una GPU de 378,6 mm^2 con 45.900 millones de transistores, 10 240 núcleos CUDA y 64 MB de caché L2. En cuanto a la AD104, tiene un tamaño de matriz de 294,5 mm^2, 35 800 millones de transistores, 7680 núcleos CUDA. y 48 MB de L2.
GPU/tarjeta gráfica | AD102 completo | RTX-4090 | RTX 4080 16GB | RTX 4080 12GB | RTX-3090Ti |
---|---|---|---|---|---|
Arquitectura | AD102 | AD102 | AD103 | AD104 | GA102 |
Proceso tecnológico | TSMC4N | TSMC4N | TSMC4N | TSMC4N | Samsung 8LPP |
Transistores (miles de millones) | 76.3 | 76.3 | 45,9 | 35.8 | 28.3 |
Tamaño del troquel (mm^2) | 608 | 608 | 378.6 | 294.5 | 628.4 |
Multiprocesadores de transmisión | 144 | 128 | 76 | 60 | 84 |
Núcleos de GPU (sombreadores) | 18432 | 16384 | 9728 | 7680 | 10752 |
Núcleos tensoriales | 576 | 512 | 320 | 240 | 336 |
Núcleos de trazado de rayos | 144 | 144 | 80 | 60 | 84 |
TMU | 512 | 512 | 304? | 240 | 336 |
Redox | 192 | 192 | 112 | 80 | 112 |
Caché L2 (MB) | 96 | 96 | 64 | 48 | 6 |
Reloj de impulso (MHz) | ? | 2520 | 2505 | 2600 | 1860 |
TFLOPS FP32 (impulso) | ? | 82.6 | 48.7 | 40.1 | 40,0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (N/D) |
Trazado de rayos TFLOPS | ? | 191 | 113 | 82 | 78.1 |
Interfaz de memoria (bit) | 384 | 384 | 256 | 192 | 384 |
Velocidad de memoria (GT/s) | ? | 21 | 22.4 | 21 | 21 |
Ancho de banda (GBps) | ? | 1008 | 736 | 504 | 1008 |
TDP (vatios) | ? | 450 | 320 | 285 | 450 |
Fecha de lanzamiento | ? | 12 de octubre de 2022 | noviembre de 2022? | noviembre de 2022? | marzo 2022 |
precio de lanzamiento | ? | $1,599 | $1,199 | $899 | $1,999 |
Una de las cosas interesantes de las que habla Nvidia en su libro blanco es que las GPU Ada Lovelace usan transistores de alta velocidad en rutas críticas para aumentar las velocidades máximas de reloj. Como resultado, su GPU AD102 totalmente habilitada con 18 432 núcleos CUDA es "capaz de funcionar a velocidades superiores a 2,5 GHz, manteniendo el mismo TGP de 450 W". Teniendo eso en cuenta, no nos sorprende que la empresa esté hablando de relojes de 3,0 GHz para la GeForce RTX 4090 (con 16 384 núcleos CUDA) logrados en sus laboratorios. A 3,0 GHz, la GeForce RTX 4090 encabezará absolutamente nuestra lista de las mejores tarjetas gráficas del mercado.
Además de los relojes altos, la GPU Ada Lovelace de Nvidia también cuenta con enormes cachés L2 que mejoran el rendimiento en cargas de trabajo de cómputo intensivo (por ejemplo, trazado de rayos, seguimiento de rutas, simulaciones, etc.) y reducen los requisitos de ancho de banda de la memoria. Esencialmente, las GPU Ada de Nvidia aquí se inspiran en el libro 2 Infinity Cache de RDNA, aunque creemos que los objetivos generales para la nueva arquitectura se establecieron mucho antes de que se lanzaran los productos de la serie Radeon RX 6000 de AMD en 2020.
Hablando de cargas de trabajo como simulaciones, cabe señalar que en el mundo de las supercomputadoras se realizan con números en formato de punto flotante de doble precisión (FP64) para mejorar la precisión de los resultados. El FP64 es más caro que el FP32 en términos de rendimiento y complejidad del hardware. Esta es la razón por la cual los gráficos por computadora usan formatos FP32 y muchas simulaciones de activos no críticos también se realizan con precisión FP32. Mientras tanto, la GPU AD102 solo tiene 288 núcleos FP64 (dos por multiprocesador de transmisión) incluidos para garantizar que todos los programas con código FP64 funcionen sin problemas, incluido el código FP64 Tensor Core.
Sin embargo, la tasa FP64 del AD102 es 1/64 de la tasa TFLOP de las operaciones FP32 (que está en línea con la arquitectura Ampere). Nvidia no muestra sus núcleos FP64 en los esquemas de su módulo multiprocesador (SM) de transmisión y no revela la cantidad de dichos núcleos en las GPU AD103 y AD104. La baja tasa de FP64 de los procesadores gráficos Ada subraya que estas piezas están destinadas sobre todo a los juegos.
Más transistores = más rendimiento
La complejidad y el tamaño de matriz de las GPU Ada Lovelace de Nvidia en comparación con las GPU Ampere de la compañía no debería sorprender. Las nuevas GPU Ada se fabrican con las tecnologías de fabricación 4N (clase 5 nm) de TSMC, mientras que Ampère se fabricó con el proceso 8LPP de Samsung Foundry (un nodo de clase 10 nm con una contracción óptica del 10 %). Esta complejidad adicional (recuento de transistores) es lo que permite mejoras de rendimiento impresionantes en áreas como el trazado de rayos y mejoras de calidad con DLSS 3.0.
GPU/tarjeta gráfica | AD102 | RTX-4090 | RTX 4080 16GB | RTX 4080 12GB | RTX-3090Ti |
---|---|---|---|---|---|
GPU | AD102 | AD102 | AD103 | AD104 | GA102 |
TFLOPS FP32 (impulso) | ? | 82.6 | 48.7 | 40.1 | 40,0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (N/D) |
Trazado de rayos TFLOPS | ? | 191 | 113 | 82 | 78.1 |
Otra cosa a tener en cuenta es que la GPU AD102 de Nvidia tiene una mayor densidad de transistores que sus hermanos inferiores. Por un lado, esa densidad de transistor adicional del 3,6 % le permite incluir muchas más unidades de ejecución en el AD102 en comparación con sus hermanos más pequeños. Pero, por otro lado, la densidad de transistores laxa de AD103 y AD104 permite en muchos casos mejores eficiencias (suponiendo que la densidad de defectos del nodo no sea alta en general) y relojes más altos.
Es difícil hacer predicciones sobre el potencial de frecuencia de AD103 y AD104 sin acceso al hardware real y/o conocimiento de sus tasas de retorno reales. Sin embargo, si AD102 puede funcionar a 2,50 GHz ~ 3,0 GHz, es razonable esperar que AD103 y AD104 tengan un potencial aún mayor. También sabemos que el RTX 4080 de 12 GB usa un chip AD104 totalmente habilitado que funciona a 2610 MHz, mientras que el RTX 4080 de 16 GB usa el 95 % de un chip AD103 (76 de 80 SM) que funciona a 2505 MHz, y el RTX 4090 solo usa el 89 % ( 128 de 144 SM) funcionando a 2510 MHz, también con el 25 % de la memoria caché L2 deshabilitada.
Un número extremo de unidades de ejecución, posible gracias a la alta complejidad, junto con relojes altos, debería proporcionar ganancias de rendimiento notables. La GeForce RTX 4090 de Nvidia tiene más del doble de la tasa de cómputo teórica máxima de FP32 (~82,6 TFLOPS) en comparación con la GeForce RTX 3090 Ti (~40 TFLOPS).
Mientras tanto, la línea actual de GPU Ada de Nvidia para jugadores exigentes muestra que la compañía ha vuelto a la normalidad con su enfoque de tres chips para el mercado de juegos de gama alta. Normalmente, Nvidia lanza su GPU insignia para juegos, la sigue con un chip que tiene alrededor del 66 %~75 % de los recursos del buque insignia (por ejemplo, núcleos CUDA), luego presenta una GPU que tiene alrededor del 50 % de las unidades del buque insignia. Con la familia Ampere, esta estrategia se ajustó un poco, ya que el chip GA103 de Nvidia se diseñó principalmente para computadoras portátiles y apenas llegó a las computadoras de escritorio (también era tarde para la fiesta), pero con la generación Ada, Nvidia volvió a su enfoque habitual de tres tokens.
Más SKU entrantes
Un punto interesante para recordar es la disparidad entre las configuraciones máximas que ofrece la GPU AD102 y la tarjeta gráfica GeForce RTX 4090. La AD102 incluye 18 432 núcleos CUDA, mientras que la GeForce RTX 4090 viene con 16 384 núcleos CUDA habilitados. Este enfoque le da a Nvidia flexibilidad adicional en lo que respecta a los rendimientos y la introducción de nuevas tarjetas gráficas en el futuro, por lo que hay mucho espacio para una generación RTX 4090 Ti, RTX 4080 Ti y RTX 5500/5000 Ada para los mercados de ProViz, etc.
Mientras tanto, la GeForce RTX 4080 de 16 GB y la RTX 4080 de 12 GB utilizan GPU AD103 casi completas y AD104 completas, respectivamente. No sabemos qué depara el futuro, pero anticipamos que finalmente veremos versiones reducidas de las GPU AD103 y AD104. Podemos especular sobre la GeForce RTX 4070 Ti y/o RTX 4070 en función de los contenedores desplegables del chip AD104, así como sobre el potencial de soluciones gráficas de ultra alta gama para computadoras portátiles con la GPU AD103, pero solo podemos adivinar las especificaciones. de estas partes.
Algunas ideas
La arquitectura Ada Lovelace de Nvidia es un salto tanto cualitativo como cuantitativo sobre la arquitectura Ampere. Nvidia no solo ha mejorado considerablemente el rendimiento de su trazado de rayos, núcleos tensoriales y algunas otras unidades a nivel arquitectónico, sino que también ha aumentado su número y aumentado sus relojes. Una mejora importante aquí es el aumento masivo de cachés L2 de las GPU Ada en comparación con las GPU Ampere.
En gran medida, estos saltos fueron posibles gracias a la tecnología de proceso 4N optimizada para GPU Nvidia de TSMC. Además, la empresa también usó transistores de alta velocidad para aumentar las frecuencias de sus nuevas GPU, lo que proporcionó ganancias de rendimiento adicionales.
Pero un nodo de producción de última generación y los grandes tamaños de matriz de las nuevas GPU de Nvidia también hacen que las piezas sean mucho más costosas de construir, razón por la cual los precios de las tarjetas gráficas GeForce RTX 4080 y 4090 son considerablemente más altos que sus predecesores directos.
Hasta ahora, Nvidia solo ha presentado cinco productos basados en Ada Lovelace: las tarjetas gráficas GeForce RTX 4080 de 12 GB, RTX 4080 de 16 GB y RTX 4090 para computadoras de escritorio, junto con la Ada de generación RTX 6000 para estaciones de trabajo/centros de datos y L40 (Lovelace 40). ) tarjetas de alto rendimiento. endpoints y entornos de escritorio virtualizados.
Dado que la empresa puede ofrecer versiones AD102 completas y reducidas de las GPU AD102, AD103 y AD104, podemos considerar muchas tarjetas nuevas de la serie GeForce RTX 40 para máquinas cliente y soluciones de la serie Ada RTX para centros de datos. Mientras tanto, es probable que Nvidia esté preparando GPU más pequeñas (AD106, AD107), por lo que parece que la familia de productos Ada Lovelace será al menos tan grande como la línea Ampere.
Deja una respuesta