Wnioskowanie AI i podstawowe obliczenia dla każdego przedsiębiorstwa

Zwiększ wydajność każdego obciążenia korporacyjnego dzięki procesorom graficznym NVIDIA A30 Tensor Core. Dzięki rdzeniom Tensor o architekturze NVIDIA Ampere i procesorowi graficznemu Multi-Instance (MIG) zapewnia bezpieczne przyspieszenie w przypadku różnorodnych obciążeń, w tym wnioskowania AI na dużą skalę i aplikacji obliczeniowych o wysokiej wydajności (HPC). Łącząc dużą przepustowość pamięci i niskie zużycie energii w obudowie PCIe – optymalnej dla serwerów głównego nurtu – A30 umożliwia elastyczne centrum danych i zapewnia maksymalną wartość dla przedsiębiorstw.

Zobacz arkusz danych

Rozwiązanie Data Center dla nowoczesnego IT

Architektura NVIDIA Ampere jest częścią zunifikowanej platformy NVIDIA EGX™, obejmującej elementy składowe sprzętu, sieci, oprogramowania, bibliotek oraz zoptymalizowanych modeli i aplikacji AI z katalogu NVIDIA NGC™. Stanowi najpotężniejszą, kompleksową platformę sztucznej inteligencji i HPC dla centrów danych, umożliwiając naukowcom szybkie dostarczanie rzeczywistych wyników i wdrażanie rozwiązań do produkcji na dużą skalę.

Trening głębokiego uczenia się

Szkolenie AI — do 3 razy większa przepustowość niż wersja 100 i 6 razy większa niż T4

BERT Duży trening przedtreningowy (normalizowany)

ERT-Large Pre-Training (9/10 epochs) Phase 1 and (1/10 epochs) Phase 2, Sequence Length for Phase 1 = 128 and Phase 2 = 512, dataset = real, NGC™ container = 21.03,

8x GPU: T4 (FP32, BS=8, 2) | V100 PCIE 16GB (FP32, BS=8, 2) | A30 (TF32, BS=8, 2) | A100 PCIE 40GB (TF32, BS=54, 8) | batch sizes indicated are for Phase 1 and Phase 2 respectively

Szkolenie modeli sztucznej inteligencji pod kątem wyzwań wyższego poziomu, takich jak konwersacyjna sztuczna inteligencja, wymaga ogromnej mocy obliczeniowej i skalowalności.

Rdzenie Tensorowe NVIDIA A30 z funkcją Tensor Grow Float (TF32) zapewniają do 10 razy wyższą wydajność w porównaniu z NVIDIA T4 przy zerowych zmianach kodu i dodatkowe 2-krotne zwiększenie dzięki automatycznej mieszanej precyzji i FP16, zapewniając łączną 20-krotną przepustowość. W połączeniu z NVIDIA® NVLink®, PCIe Gen4, obsługą sieci NVIDIA i pakietem SDK NVIDIA Magnum IO™ możliwe jest skalowanie do tysięcy procesorów graficznych.

Rdzenie Tensor i MIG umożliwiają dynamiczne wykorzystanie A30 do obciążeń roboczych w ciągu dnia. Można go używać do wnioskowania produkcyjnego w godzinach szczytu, a część procesora graficznego można ponownie wykorzystać do szybkiego ponownego uczenia tych samych modeli poza godzinami szczytu.

NVIDIA ustanowiła wiele rekordów wydajności w MLPerf, ogólnobranżowym benchmarku w zakresie szkoleń AI.

Dowiedz się więcej o architekturze NVIDIA Ampere do celów szkoleniowych

Deep Learning Inference

A30 wykorzystuje przełomowe funkcje w celu optymalizacji obciążeń wnioskowania. Przyspiesza pełen zakres precyzji, od FP64 do TF32 i INT4. Obsługując do czterech MIG-ów na procesor graficzny, A30 umożliwia jednoczesne działanie wielu sieci w bezpiecznych partycjach sprzętowych z gwarantowaną jakością usług (QoS). A obsługa rzadkości strukturalnej zapewnia do 2 razy większą wydajność w porównaniu z innymi wzrostami wydajności wnioskowania A30.

Wiodąca na rynku wydajność sztucznej inteligencji firmy NVIDIA została zademonstrowana w programie MLPerf Inference. W połączeniu z serwerem wnioskowania NVIDIA Triton™, który z łatwością wdraża sztuczną inteligencję na dużą skalę, A30 zapewnia tę przełomową wydajność każdemu przedsiębiorstwu.

Dowiedz się więcej o architekturze NVIDIA Ampere na potrzeby wnioskowania /ENG/

Wnioskowanie AI — nawet 3 razy większa przepustowość niż V100 przy konwersacyjnej sztucznej inteligencji w czasie rzeczywistym

Duże wnioskowanie BERT (znormalizowane)
Przepustowość przy opóźnieniu <10 ms

NVIDIA® TensorRT®, Precision = INT8, Sequence Length = 384, NGC Container 20.12, Latency <10ms, Dataset = Synthetic 1x GPU: A100 PCIe 40GB (BS=8) | A30 (BS=4) | V100 SXM2 16GB (BS=1) | T4 (BS=1)

Wnioskowanie AI — ponad 3 razy większa przepustowość niż T4 przy klasyfikacji obrazów w czasie rzeczywistym

Wnioskowanie RN50 v1.5 (znormalizowane)
Przepustowość przy opóźnieniu <7 ms

TensorRT, NGC Container 20.12, Latency <7ms, Dataset=Synthetic, 1x GPU: T4 (BS=31, INT8) | V100 (BS=43, Mixed precision) | A30 (BS=96, INT8) | A100 (BS=174, INT8)

Obliczenia o wysokiej wydajności

HPC — do 1,1 razy większa przepustowość w porównaniu z V100 i 8 razy wyższa w porównaniu z T4

LAMPY (Znormalizowane)

Dataset: ReaxFF/C, FP64 | 4x GPU: T4, V100 PCIE 16GB, A30

Aby odblokować odkrycia nowej generacji, naukowcy wykorzystują symulacje, aby lepiej zrozumieć otaczający nas świat.

NVIDIA A30 jest wyposażona w rdzenie Tensor o architekturze NVIDIA Ampere FP64, które zapewniają największy skok wydajności HPC od czasu wprowadzenia procesorów graficznych. W połączeniu z 24 gigabajtami (GB) pamięci GPU i przepustowością 933 gigabajtów na sekundę (GB/s) badacze mogą szybko wykonywać obliczenia o podwójnej precyzji. Aplikacje HPC mogą również wykorzystywać TF32, aby osiągnąć wyższą przepustowość w przypadku gęstych operacji mnożenia macierzy o pojedynczej precyzji.

Połączenie rdzeni Tensor FP64 i MIG umożliwia instytucjom badawczym bezpieczne partycjonowanie procesora graficznego, aby umożliwić wielu badaczom dostęp do zasobów obliczeniowych z gwarantowaną jakością usług i maksymalnym wykorzystaniem procesora graficznego. Przedsiębiorstwa wdrażające sztuczną inteligencję mogą korzystać z możliwości wnioskowania A30 w okresach szczytowego zapotrzebowania, a następnie zmieniać przeznaczenie tych samych serwerów obliczeniowych na potrzeby szkoleń HPC i AI poza okresami szczytu.

Przejrzyj najnowszą wydajność procesora graficznego w aplikacjach HPC

Wysoce wydajna analiza danych

Analitycy danych muszą być w stanie analizować, wizualizować i przekształcać ogromne zbiory danych w spostrzeżenia. Jednak rozwiązania skalowalne w poziomie często ugrzęzły w zbiorach danych rozproszonych na wielu serwerach.

Przyspieszone serwery z A30 zapewniają potrzebną moc obliczeniową — wraz z dużą pamięcią HBM2, przepustowością pamięci 933 GB/s i skalowalnością za pomocą NVLink — aby sprostać tym obciążeniom. W połączeniu z NVIDIA InfiniBand, NVIDIA Magnum IO i pakietem bibliotek open source RAPIDS™, w tym RAPIDS Accelerator dla Apache Spark, platforma centrum danych NVIDIA przyspiesza te ogromne obciążenia z niespotykanym dotąd poziomem wydajności i efektywności.

Dowiedz się więcej o analizie danych

Wykorzystanie gotowe do zastosowania w przedsiębiorstwie

A30 z MIG maksymalizuje wykorzystanie infrastruktury akcelerowanej przez GPU. Dzięki MIG procesor graficzny A30 można podzielić na aż cztery niezależne instancje, zapewniając wielu użytkownikom dostęp do akceleracji GPU.

MIG współpracuje z Kubernetesem, kontenerami i wirtualizacją serwerów opartą na hypervisorze. MIG pozwala zarządcom infrastruktury oferować procesory graficzne o odpowiedniej wielkości z gwarantowaną jakością usług QoS dla każdego zadania, rozszerzając zasięg przyspieszonych zasobów obliczeniowych dla każdego użytkownika.

Dowiedz się więcej o MIG

Przedsiębiorstwo oparte na sztucznej inteligencji NVIDIA

NVIDIA AI Enterprise, kompleksowy pakiet oprogramowania do sztucznej inteligencji i analizy danych, natywnie działający w chmurze, posiada certyfikat do działania na platformie A30 w infrastrukturze wirtualnej opartej na hypervisorze z VMware vSphere. Umożliwia to zarządzanie i skalowanie obciążeń AI w środowisku chmury hybrydowej.

Dowiedz się więcej o NVIDIA AI Enterprise

Główne certyfikowane systemy NVIDIA

Systemy z certyfikatem NVIDIA™ z kartą NVIDIA A30 łączą przyspieszenie obliczeń i szybką, bezpieczną sieć NVIDIA w serwerach centrów danych dla przedsiębiorstw, budowanych i sprzedawanych przez partnerów OEM firmy NVIDIA. Program ten umożliwia klientom identyfikację, nabywanie i wdrażanie systemów dla tradycyjnych i różnorodnych nowoczesnych aplikacji AI z katalogu NVIDIA NGC w ramach jednej, wydajnej, ekonomicznej i skalowalnej infrastruktury.

Dowiedz się więcej o certyfikowanych systemach NVIDIA

Specyfikacje procesora graficznego A30 Tensor Core

FP64	5.2 teraFLOPS
FP64 Tensor Core	10.3 teraFLOPS
FP32	10.3 teraFLOPS
TF32 Tensor Core	82 teraFLOPS \| 165 teraFLOPS*
BFLOAT16 Tensor Core	165 teraFLOPS \| 330 teraFLOPS*
FP16 Tensor Core	165 teraFLOPS \| 330 teraFLOPS*
INT8 Tensor Core	330 TOPS \| 661 TOPS*
INT4 Tensor Core	661 TOPS \| 1321 TOPS*
Media engines	1 optical flow accelerator (OFA) 1 JPEG decoder (NVJPEG) 4 video decoders (NVDEC)
GPU memory	24GB HBM2
GPU memory bandwidth	933GB/s
Interconnect	PCIe Gen4: 64GB/s Third-gen NVLINK: 200GB/s**
Form factor	Dual-slot, full-height, full-length (FHFL)
Max thermal design power (TDP)	165W
Multi-Instance GPU (MIG)	4 GPU instances @ 6GB each 2 GPU instances @ 12GB each 1 GPU instance @ 24GB
Virtual GPU (vGPU) software support	NVIDIA AI Enterprise NVIDIA Virtual Compute Server

* Z rzadkością
** Most NVLink dla maksymalnie dwóch GPU

Zobacz najnowsze dane porównawcze MLPerf

Pokaż wyniki

Wewnątrz architektury NVIDIA Ampere

Poznaj najnowocześniejsze technologie architektury NVIDIA Ampere.

Dowiedz się więcej

NVIDIA A30

Procesor graficzny z rdzeniem Tensor

Wnioskowanie AI i podstawowe obliczenia dla każdego przedsiębiorstwa

Rozwiązanie Data Center dla nowoczesnego IT

Trening głębokiego uczenia się

Szkolenie AI — do 3 razy większa przepustowość niż wersja 100 i 6 razy większa niż T4

Deep Learning Inference

Wnioskowanie AI — nawet 3 razy większa przepustowość niż V100 przy konwersacyjnej sztucznej inteligencji w czasie rzeczywistym

Wnioskowanie AI — ponad 3 razy większa przepustowość niż T4 przy klasyfikacji obrazów w czasie rzeczywistym

Obliczenia o wysokiej wydajności

HPC — do 1,1 razy większa przepustowość w porównaniu z V100 i 8 razy wyższa w porównaniu z T4

Wysoce wydajna analiza danych

Wykorzystanie gotowe do zastosowania w przedsiębiorstwie

Przedsiębiorstwo oparte na sztucznej inteligencji NVIDIA

Główne certyfikowane systemy NVIDIA

Specyfikacje procesora graficznego A30 Tensor Core

Zobacz najnowsze dane porównawcze MLPerf

Wewnątrz architektury NVIDIA Ampere

Poznaj najnowocześniejsze technologie architektury NVIDIA Ampere.

format_warsaw

Zarejestruj się, aby otrzymywać powiadomienia o dostępności

NVIDIA A30

Procesor graficzny z rdzeniem Tensor

Wnioskowanie AI i podstawowe obliczenia dla każdego przedsiębiorstwa

Rozwiązanie Data Center dla nowoczesnego IT

Trening głębokiego uczenia się

Szkolenie AI — do 3 razy większa przepustowość niż wersja 100 i 6 razy większa niż T4

Deep Learning Inference

Wnioskowanie AI — nawet 3 razy większa przepustowość niż V100 przy konwersacyjnej sztucznej inteligencji w czasie rzeczywistym

Wnioskowanie AI — ponad 3 razy większa przepustowość niż T4 przy klasyfikacji obrazów w czasie rzeczywistym

Obliczenia o wysokiej wydajności

HPC — do 1,1 razy większa przepustowość w porównaniu z V100 i 8 razy wyższa w porównaniu z T4

Wysoce wydajna analiza danych

Wykorzystanie gotowe do zastosowania w przedsiębiorstwie

Przedsiębiorstwo oparte na sztucznej inteligencji NVIDIA

Główne certyfikowane systemy NVIDIA

Specyfikacje procesora graficznego A30 Tensor Core

Zobacz najnowsze dane porównawcze MLPerf

Wewnątrz architektury NVIDIA Ampere

Poznaj najnowocześniejsze technologie architektury NVIDIA Ampere.

format_warsaw

Logowanie