Acelerando a IA Avançada em Todos os Data Centers.
IA, simulações complexas e conjuntos de dados de grande escala exigem várias GPUs com interconexões extremamente rápidas e um stack de software totalmente acelerado. A plataforma NVIDIA HGX™ reúne todo o poder das GPUs NVIDIA, do NVIDIA NVLink™, das redes NVIDIA e dos stacks de software de IA e de computação de alto desempenho (HPC) totalmente otimizados para garantir o máximo desempenho das aplicações e acelerar a obtenção de insights em todos os data centers.
A NVIDIA HGX B300 integra as GPUs NVIDIA Blackwell Ultra com interconexões de alta velocidade para impulsionar o data center rumo a uma nova era de computação acelerada e IA generativa. Por ser uma plataforma de escalabilidade acelerada líder com até 11 vezes mais desempenho de inferência do que a geração anterior, os sistemas HGX baseados em Blackwell foram projetados para as cargas de trabalho de IA generativa, análise de dados e HPC mais exigentes.
A NVIDIA HGX inclui opções avançadas de redes, a velocidades de até 800 gigabits por segundo (Gb/s), usando o NVIDIA Quantum-X800 InfiniBand e a Ethernet Spectrum™-X para o mais alto desempenho de IA. A HGX também inclui unidades de processamento de dados (DPUs) NVIDIA BlueField®-3 para permitir redes em nuvem, armazenamento agregável, segurança de confiança zero e elasticidade de computação de GPU em nuvens de IA de hiperescala.
Desempenho projetado sujeito a alterações. Latência token a token (TTL) = 20 ms em tempo real, latência do primeiro token (FTL) = 5 s, comprimento da sequência de entrada = 32.768, comprimento da sequência de saída = 1.028, 8 GPUs HGX H100 de oito vias com resfriamento a ar vs. 1 HGX B300 com resfriamento a ar, por comparação de desempenho de GPU; atendidos por meio de inferência desagregada.
A HGX B300 alcança um desempenho de inferência até 11 vezes maior em relação à geração anterior, NVIDIA Hopper™, para modelos como o Llama 3.1 405B. O Transformer Engine de segunda geração usa tecnologia personalizada Blackwell Tensor Core combinada com inovações do TensorRT™-LLM para acelerar a inferência para grandes modelos de linguagem (LLMs).
Desempenho projetado sujeito a alterações. 8 HGX H100 de oito vias vs. 1 HGX B300, comparação de desempenho por GPU.
O Transformer Engine de segunda geração, com ponto flutuante de 8 bits (FP8) e novas precisões, permite um treinamento notavelmente 4 vezes mais rápido para grandes modelos de linguagem como Llama 3.1 405B. Essa inovação é complementada pelo NVLink de quinta geração com 1,8TB/s de interconexão GPU-a-GPU, rede InfiniBand e software NVIDIA Magnum IO™. Juntos, eles garantem escalabilidade eficiente para empresas e amplos clusters de computação de GPU.
O data center é a nova unidade de computação, e as redes desempenham um papel fundamental na escalabilidade do desempenho de aplicações em todo ele. Juntamente com o NVIDIA Quantum InfiniBand, a HGX oferece desempenho e eficiência de classe mundial, o que garante a total utilização dos recursos de computação.
Para data centers de IA na nuvem que implantam Ethernet, a HGX é mais bem utilizada com a plataforma de rede NVIDIA Spectrum-X™, que possibilita o mais alto desempenho de IA via Ethernet. Ela inclui switches Spectrum-X e NVIDIA SuperNIC™ para utilização ideal de recursos e isolamento de desempenho, oferecendo resultados consistentes e previsíveis para milhares de trabalhos de IA simultâneos em qualquer escala. O Spectrum-X permite multilocação avançada de nuvem e segurança de confiança zero. Como design de referência, a NVIDIA projetou o Israel-1, um supercomputador de IA generativa de hiperescala construído com servidores Dell PowerEdge XE9680 baseados na plataforma NVIDIA HGX de 8 GPUs, SuperNICs BlueField-3 e switches Spectrum-4.
O NVIDIA HGX está disponível em placas base únicas com quatro ou oito Hopper SXMs ou oito NVIDIA Blackwell ou NVIDIA Blackwell Ultra SXMs. Essas potentes combinações de hardware e software estabelecem as bases para um desempenho de supercomputação de IA sem precedentes.
HGX B300 | HGX B200 | |
---|---|---|
Formato | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
Núcleo Tensor FP4** | 144 FPLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
Núcleo Tensor FP8/FP6* | 72 FPLOPS | 72 PFLOPS |
Núcleo Tensor INT8* | 2 POPS | 72 POPS |
Núcleo Tensor FP16/BF16* | 36 PFLOPS | 36 PFLOPS |
Núcleo Tensor TF32* | 18 PFLOPS | 18 PFLOPS |
FP32 | 600 TFLOPS | 600 TFLOPS |
Núcleo Tensor FP64/FP64 | 10 TFLOPS | 296 TFLOPS |
Memória total | Até 2,3TB | 1,4TB |
NVLink | Quinta geração | Quinta geração |
NVIDIA NVSwitch™ | Switch NVLink 5 | Switch NVLink 5 |
Largura de Banda de GPU para GPU NVSwitch | 1,8TB/s | 1,8TB/s |
Largura de Banda Total do NVLink | 14,4TB/s | 14,4TB/s |
*Com dispersão
** Com dispersão | sem dispersão
HGX H200 | ||||
---|---|---|---|---|
4 GPUs | 8 GPUs | |||
Formato | 4 NVIDIA H200 SXM | 8 NVIDIA H200 SXM | ||
Núcleo Tensor FP8* | 16 PFLOPS | 32 PFLOPS | ||
Núcleo Tensor INT8* | 16 POPS | 32 POPS | ||
Núcleo Tensor FP16/BF16* | 8 PFLOPS | 16 PFLOPS | ||
Núcleo Tensor TF32* | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
Núcleo Tensor FP64 | 270 TFLOPS | 540 TFLOPS | ||
Memória Total | HBM3 de 564GB | HBM3 de 1,1TB | ||
Largura de Banda Agregada de GPU | 19GB/s | 38GB/s | ||
NVLink | Quarta geração | Quarta geração | ||
NVSwitch | N/A | Switch NVLink 4 | ||
Largura de Banda de GPU para GPU NVSwitch | N/A | 900GB/s | ||
Largura de Banda Agregada Total | 3,6TB/s | 7,2TB/s |
HGX H100 | ||||
---|---|---|---|---|
4 GPUs | 8 GPUs | |||
Formato | 4 NVIDIA H100 SXM | 8 NVIDIA H100 SXM | ||
Núcleo Tensor FP8* | 16 PFLOPS | 32 PFLOPS | ||
Núcleo Tensor INT8* | 16 POPS | 32 POPS | ||
Núcleo Tensor FP16/BF16* | 8 PFLOPS | 16 PFLOPS | ||
Núcleo Tensor TF32* | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
Núcleo Tensor FP64 | 270 TFLOPS | 540 TFLOPS | ||
Memória Total | HBM3 de 320GB | HBM3 de 640GB | ||
Largura de Banda Agregada de GPU | 13GB/s | 27GB/s | ||
NVLink | Quarta geração | Quarta geração | ||
NVSwitch | N/A | Switch NVLink 4 | ||
Largura de Banda de GPU para GPU NVSwitch | N/A | 900GB/s | ||
Largura de Banda Agregada Total | 3,6TB/s | 7,2TB/s |
*Com dispersão
Saiba mais sobre a arquitetura NVIDIA Blackwell.