NVIDIA H100 PCIe

Niespotykana wydajność, skalowalność i bezpieczeństwo
dla każdego centrum danych

Procesor graficzny NVIDIA® H100 Tensor Core to skok technologiczny o rząd wielkości w przypadku wielkoskalowej sztucznej inteligencji i HPC, oferując niespotykaną dotąd wydajność, skalowalność i bezpieczeństwo dla każdego centrum danych, a także zawiera pakiet oprogramowania NVIDIA AI Enterprise usprawniający rozwój i wdrażanie sztucznej inteligencji. H100 przyspiesza eksaskalowalne obciążenia robocze dzięki dedykowanemu silnikowi Transformer Engine, obsługującemu biliony parametrów modeli językowych.
W przypadku małych zadań, zasoby H100 można podzielić na odpowiednie partycje Multi-Instance GPU (MIG). Dzięki rozwiązaniu Hopper Confidential Computing ta skalowalna moc obliczeniowa może zabezpieczyć wrażliwe aplikacje we współdzielonej infrastrukturze centrum danych. Włączenie NVIDIA AI Enterprise do H100 PCIe skraca czas opracowywania i upraszcza wdrażanie obciążeń AI, czyniąc z H100 najpotężniejszą kompleksową platformę GPU dla centrów danych, AI i HPC.

Architektura NVIDIA Hopper zapewnia niespotykaną dotąd wydajność, skalowalność i bezpieczeństwo dla każdego centrum danych. Technologia Hopper opiera się na wcześniejszej generacji, ale z nowymi rozwiązaniami, od nowych możliwości rdzenia obliczeniowego, takich jak Transformer Engine, po szybszą pracę sieciową w celu zapewnienia centrum danych dużego przyspieszeniem o rząd wielkości w porównaniu z poprzednią generacją. NVIDIA NVLink obsługuje ultrawysoką przepustowość i wyjątkowo niskie opóźnienia między dwiema kartami H100, a także wspiera łączenie pamięci i skalowanie wydajności (wymagana obsługa aplikacji). Druga generacja MIG bezpiecznie dzieli GPU na izolowane instancje odpowiedniej wielkości, aby zmaksymalizować jakość usług (QoS) dla 7x bardziej zabezpieczonych dzierżawców. Pakietu oprogramowania NVIDIA AI Enterprise (wyłącznie dla kart GPU H100 PCIe), który optymalizuje rozwój i wdrażanie przyspieszonych przepływów pracy AI, maksymalizuje wydajność dzięki nowym innowacjom architektury H100. Te przełomowe rozwiązania technologiczne napędzają procesor graficzny H100 Tensor Core — największy na świecie zaawansowany procesor graficzny, jaki kiedykolwiek zbudowano.

FUNKCJE WYDAJNOŚCIOWE I UŻYTKOWE

Niezawodność klasy centrum danych

Zaprojektowany do pracy w centrum danych 24 x 7 i napędzany energooszczędnym sprzętem i komponentami dobranymi pod kątem optymalnej wydajności, trwałości i długowieczności. Każda płyta główna NVIDIA H100 jest projektowana, budowana i testowana przez firmę NVIDIA zgodnie z najbardziej rygorystycznymi standardami jakości i wydajności, dzięki czemu wiodący producenci OEM i integratorzy systemów mogą sprostać najbardziej wymagającym warunkom w świecie rzeczywistym, a nawet je przewyższyć.

Architektura NVIDIA Hopper

Konfiguracja H100 PCIe Gen5 zapewnia wszystkie możliwości procesorów graficznych H100 SXM5 przy zaledwie 350 watach mocy cieplnej (TDP). Ta konfiguracja może opcjonalnie wykorzystywać mostek NVLink do łączenia maksymalnie dwóch procesorów graficznych z przepustowością 600 GB/s, czyli prawie pięciokrotnie większą niż PCIe Gen5. H100 PCIe, dobrze dostosowana do głównych serwerów z akceleracją, które umieszczane są w standardowych szafach typu rack, zapewniając niższy pobór mocy na serwer, zapewnia doskonałą wydajność w aplikacjach skalowanych do 1 lub 2 procesorów graficznych jednocześnie, w tym wnioskowania AI i niektórych aplikacji HPC. W zestawie 10 najlepszych aplikacji do analizy danych, sztucznej inteligencji i HPC pojedynczy procesor graficzny H100 PCIe skutecznie zapewnia 65% wydajności procesora graficznego H100 SXM5, zużywając przy tym 50% energii.

Architektura H100 SM

Opierając się na architekturze GPU NVIDIA A100 Tensor Core SM, H100 SM czterokrotnie zwiększa szczytową moc obliczeniową zmiennoprzecinkową A100 na SM dzięki wprowadzeniu FP8 i podwaja surową moc obliczeniową SM A100 we wszystkich poprzednich typach danych Tensor Core i FP32 / FP64 , zegar za zegarem. Nowy silnik transformatora w połączeniu z rdzeniami tensorowymi FP8 firmy Hopper zapewnia do 9 razy szybsze szkolenie AI i 30 razy szybsze przyspieszenie wnioskowania AI w dużych modelach językowych w porównaniu z poprzednią generacją A100. Nowe instrukcje DPX Hoppera umożliwiają do 7 razy szybsze przetwarzanie algorytmu Smitha-Watermana na potrzeby genomiki i sekwencjonowania białek. Nowa czwarta generacja Tensor Core firmy Hopper, akcelerator pamięci Tensor oraz wiele innych ulepszeń architektury SM i ogólnej architektury H100 razem zapewniają nawet 3-krotnie wyższą wydajność HPC i AI w wielu innych przypadkach.

Architektura rdzenia Tensor H100

Rdzenie Tensor to wyspecjalizowane rdzenie obliczeniowe o wysokiej wydajności do operacji matematycznych mnożenia i akumulacji macierzy (MMA), które zapewniają przełomową wydajność aplikacji AI i HPC. Rdzenie Tensor działające równolegle w SM w jednym GPU NVIDIA zapewniają ogromny wzrost przepustowości i wydajności w porównaniu ze standardowymi operacjami zmiennoprzecinkowymi (FP), całkowitymi (INT) i FMA (Fused Multiply-Accumulate). Rdzenie Tensor zostały po raz pierwszy wprowadzone w GPU NVIDIA Tesla V100 i dalej ulepszane w każdej nowej generacji architektury GPU NVIDIA. Nowa architektura Tensor Core czwartej generacji w H100 zapewnia dwukrotnie większą przepustowość matematyczną surowej gęstej i rzadkiej macierzy na SM, zegar po zegarze, w porównaniu do A100, a nawet więcej, biorąc pod uwagę wyższy zegar GPU Boost H100 niż A100. Obsługiwane są typy danych FP8, FP16, BF16, TF32, FP64 i INT8 MMA.

Podsumowanie wydajności obliczeń H100

Ogólnie rzecz biorąc, H100 zapewnia około 6-krotny wzrost wydajności obliczeniowej w stosunku do A100, biorąc pod uwagę wszystkie nowe postępy technologii obliczeniowej w H100. Podsumowując ulepszenia w H100, zacznijmy od 132 SM, które zapewniają wzrost liczby SM o 22% w stosunku do 108 SM w A100. Każdy z H100 SM jest 2x szybszy dzięki nowemu rdzeniowi Tensor czwartej generacji. A w każdym rdzeniu Tensor nowy format FP8 i powiązany silnik transformatora zapewniają kolejne 2-krotne ulepszenie. Wreszcie, zwiększone częstotliwości taktowania w H100 zapewniają kolejną około 1,3-krotną poprawę wydajności. W sumie te ulepszenia zapewniają H100 około 6-krotnie wyższą szczytową przepustowość obliczeniową niż A100, co stanowi duży skok w przypadku najbardziej wymagających obciążeń na świecie.

OBSŁUGA TECHNOLOGII WIELU GPU

NVLink czwartej generacji

Zapewnia 3-krotny wzrost przepustowości w operacjach all-reduce i 50% ogólny wzrost przepustowości w stosunku do poprzedniej generacji NVLink z całkowitą przepustowością 900 GB/s dla wielu procesorów graficznych IO pracujących z prawie 5-krotną przepustowością PCIe Gen5.

WSPARCIE OPROGRAMOWANIA

NVIDIA AI Enterprise jest dołączona do H100 PCIe

Obsługa NVIDIA Virtual Compute Server (vCS) przyspiesza zwirtualizowane obciążenia obliczeniowe, takie jak obliczenia o wysokiej wydajności, sztuczna inteligencja, analiza danych, analiza dużych zbiorów danych i aplikacje HPC. Ponadto NVIDIA oferuje każdemu nabywcy H100 PCIe licencję NVIDIA AI Enterprise, kompleksowy, natywny dla chmury pakiet oprogramowania do sztucznej inteligencji i analizy danych, zoptymalizowany tak, aby każda organizacja mogła przodować w sztucznej inteligencji, certyfikowany do wdrażania w dowolnym miejscu z danych korporacyjnych centrum do chmury, z dołączonym globalnym wsparciem dla przedsiębiorstw, dzięki czemu projekty AI pozostają na dobrej drodze.

Oprogramowanie zoptymalizowane pod kątem sztucznej inteligencji

Ramy głębokiego uczenia, takie jak Caffe2, MXNet, CNTK, TensorFlow i inne, zapewniają znacznie krótszy czas szkolenia i wyższą wydajność uczenia wielowęzłowego. Biblioteki akcelerowane przez GPU, takie jak cuDNN, cuBLAS i TensorRT, zapewniają wyższą wydajność zarówno w przypadku głębokiego uczenia się, jak i aplikacji do obliczeń o wysokiej wydajności (HPC).

Platforma obliczeń równoległych NVIDIA CUDA

Natywnie wykonuj standardowe języki programowania, takie jak C/C++ i Fortran, oraz interfejsy API, takie jak OpenCL, OpenACC i Direct Compute, aby przyspieszyć techniki, takie jak ray tracing, przetwarzanie wideo i obrazów oraz obliczeniowa dynamika płynów.

Product NVIDIA H100 Tensor Core GPU Accelerator
Architecture Hopper
Process Size 4nm | TSMC
Transistors 80 Billion
Die Size  814 mm2
FP64 26 TFLOPS
FP64 Tensor Core 51 TFLOPS | Sparsity
FP32 51 TFLOPS
TF32 Tensor Core 51 TFLOPS | Sparsity
BFLOAT16 Tensor Core 1513 TFLOPS | Sparsity
FP16 Tensor Core 1513 TFLOPS | Sparsity
FP8 Tensor Core 3026 TFLOPS | Sparsity
INT8 Tensor Core 3026 TOPS | Sparsity
GPU Memory  80GB HBM3
Memory Bandwidth 2.0 TB/sec
NVLink 2-Way, 2-Slot, 600 GB/s Bidirectional
Gen2 MIG (Multi-Instance GPU) Support Yes, up to 7 GPU Instances at 10GB Each
Networking Support Integrated NVIDIA ConnectX-7 SmartNIC
vGPU Support NVIDIA Virtual Compute Server with MIG support
NVIDIA AI Enterprise Support Bundled with NVIDIA H100
Maximum Power Consumption  350 W
Thermal Solution Passive

Gotowy na sztuczną inteligencję?

Wdrażanie sztucznej inteligencji w przedsiębiorstwach jest obecnie głównym nurtem, dlatego organizacje potrzebują kompleksowej infrastruktury gotowej na sztuczną inteligencję, która przyspieszy ich wejście w nową erę.

NVIDIA H100 dla serwerów głównego nurtu jest dostarczana z pięcioletnią subskrypcją, obejmującą wsparcie dla przedsiębiorstw, pakiet oprogramowania NVIDIA AI Enterprise, upraszczającego wdrażanie sztucznej inteligencji przy najwyższej wydajności. Dzięki temu organizacje mają dostęp do platform AI i narzędzi potrzebnych do tworzenia przepływów pracy AI z akceleracją H100, takich jak chatboty AI, silniki rekomendacji, wizyjna sztuczna inteligencja i inne.

Zarezerwuj dostęp zdalny do testowego serwera GPU.

Platforma testowa H100 PCI-e Supermicro 4U DP 8-GPU Server AS -4125GS-TNRT

Skorzystaj z bezpłatnego dostępu do naszej konfiguracji
serwera GPU NVIDIA H100 PCI-e i przekonaj się jak działa.
Wypełnij formularz, a nasz specjalista skontaktuje się z Tobą
i ustali szczegóły dostępu.

* If other, describe in the Message