| Specyfikacje NVIDIA L4 | |
|---|---|
| FP 32 | 30,3 teraFLOPS |
| Rdzeń Tensor TF32 | 60 teraFLOPS |
| Rdzeń Tensor FP16 | 121 teraFLOPS |
| Rdzeń Tensor BFLOAT16 | 121 teraFLOPS |
| Rdzeń Tensor FP8 | 242,5 teraFLOPS |
| Rdzeń Tensor INT8 | 242,5 TOPS |
| Pamięć GPU | 24 GB GDDR6 |
| Przepustowość pamięci GPU | 300 GB/s |
| Maksymalna moc projektowa (TDP) | 72W |
| Format | 1-slotowy niskoprofilowy PCIe |
| Interfejs | PCIe Gen4 x16 |
| Tabela specyfikacji | L4 |
Oczywiście, przy cenie L4 w okolicach 2500 USD, A2 kosztującej mniej więcej połowę tej ceny, a starszej (choć wciąż całkiem wydajnej) T4 dostępnej za mniej niż 1000 USD z drugiej ręki, oczywiste pytanie brzmi, jaka jest różnica między tymi trzema kartami GPU do wnioskowania.
| Specyfikacje NVIDIA L4, A2 i T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30,3 teraFLOPS | 4,5 teraFLOPS | 8,1 teraFLOPS |
| Rdzeń Tensor TF32 | 60 teraFLOPS | 9 teraFLOPS | N/A |
| Rdzeń Tensor FP16 | 121 teraFLOPS | 18 teraFLOPS | N/A |
| Rdzeń Tensor BFLOAT16 | 121 teraFLOPS | 18 teraFLOPS | N/A |
| Rdzeń Tensor FP8 | 242,5 teraFLOPS | N/A | N/A |
| Rdzeń Tensor INT8 | 242,5 TOPS | 36 TOPS | 130 TOPS |
| Pamięć GPU | 24 GB GDDR6 | 16 GB GDDR6 | 16 GB GDDR6 |
| Przepustowość pamięci GPU | 300 GB/s | 200 GB/s | 320+ GB/s |
| Maksymalna moc projektowa (TDP) | 72W | 40-60W | 70W |
| Format | 1-slotowy niskoprofilowy PCIe | ||
| Interfejs | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Tabela specyfikacji | L4 | A2 | T4 |
Jedną z rzeczy, którą należy zrozumieć, patrząc na te trzy karty, jest to, że nie są one dokładnie zamiennikami generacyjnymi jeden do jednego, co wyjaśnia, dlaczego T4 pozostaje, wiele lat później, popularnym wyborem do niektórych zastosowań. A2 pojawiła się jako zamiennik T4 jako opcja o niskim poborze mocy i większej kompatybilności (x8 vs x16 mechanicznie). Technicznie rzecz biorąc, L4 jest następnie zamiennikiem T4, z A2 znajdującą się pośrodku, która może, ale nie musi, zostać odświeżona w przyszłości.
Wydajność MLPerf Inference 3.1
MLPerf to konsorcjum liderów AI z akademii, badań i przemysłu, powołane w celu dostarczenia uczciwych i istotnych benchmarków sprzętu i oprogramowania AI. Benchmarki te są zaprojektowane do pomiaru wydajności sprzętu, oprogramowania i usług uczenia maszynowego w różnych zadaniach i scenariuszach.
Nasze testy koncentrują się na dwóch konkretnych benchmarkach MLPerf: Resnet50 i BERT.
- Resnet50: Jest to konwolucyjna sieć neuronowa używana głównie do klasyfikacji obrazów. Jest dobrym wskaźnikiem tego, jak dobrze system radzi sobie z zadaniami głębokiego uczenia związanymi z przetwarzaniem obrazów.
- BERT (Bidirectional Encoder Representations from Transformers): Ten benchmark koncentruje się na zadaniach przetwarzania języka naturalnego, oferując wgląd w to, jak system radzi sobie ze zrozumieniem i przetwarzaniem ludzkiego języka.
Oba te testy są kluczowe dla oceny możliwości sprzętu AI w rzeczywistych scenariuszach obejmujących przetwarzanie obrazów i języka.
Ocena NVIDIA L4 za pomocą tych benchmarków jest kluczowa dla zrozumienia możliwości karty graficznej L4 w konkretnych zadaniach AI. Oferuje również wgląd w to, jak różne konfiguracje (pojedyncze, podwójne i poczwórne) wpływają na wydajność. Informacje te są kluczowe dla profesjonalistów i organizacji chcących zoptymalizować swoją infrastrukturę AI.
Modele działają w dwóch kluczowych trybach: Server i Offline.
- Tryb Offline: Ten tryb mierzy wydajność systemu, gdy wszystkie dane są dostępne do jednoczesnego przetwarzania. Jest to podobne do przetwarzania wsadowego, gdzie system przetwarza duży zbiór danych w jednej partii. Tryb offline jest kluczowy dla scenariuszy, w których opóźnienie nie jest głównym problemem, ale przepustowość i wydajność są.
- Tryb Server: W przeciwieństwie do tego, tryb server ocenia wydajność systemu w scenariuszu naśladującym rzeczywiste środowisko serwerowe, gdzie żądania przychodzą pojedynczo. Ten tryb jest wrażliwy na opóźnienia, mierząc, jak szybko system może odpowiedzieć na każde żądanie. Jest niezbędny dla aplikacji czasu rzeczywistego, takich jak serwery internetowe lub aplikacje interaktywne, gdzie wymagana jest natychmiastowa odpowiedź.
1 x NVIDIA L4 – Dell PowerEdge XR7620
W ramach naszego niedawnego przeglądu Dell PowerEdge XR7620, wyposażonego w pojedynczą kartę NVIDIA L4, zabraliśmy go na brzeg sieci, aby wykonać kilka zadań, w tym MLPerf.
Nasza konfiguracja systemu testowego obejmowała następujące komponenty:
- 2 x Xeon Gold 6426Y – 16 rdzeni 2,5 GHz
- 1 x NVIDIA L4
- 8 x 16 GB DDR5
- 480 GB BOSS RAID1
- Ubuntu Server 22.04
- Sterownik NVIDIA 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Wynik |
|---|---|
| Resnet50 – Server | 12 204,40 |
| Resnet50 – Offline | 13 010,20 |
| BERT K99 – Server | 898,945 |
| BERT K99 – Offline | 973,435 |
Wydajność w scenariuszach server i offline dla Resnet50 i BERT K99 jest prawie identyczna, co wskazuje, że L4 utrzymuje spójną wydajność w różnych modelach serwerów.
1, 2 i 4 karty NVIDIA L4 – Dell PowerEdge T560
Nasza konfiguracja jednostki testowej obejmowała następujące komponenty:
- 2 x Intel Xeon Gold 6448Y (po 32 rdzenie/64 wątki, TDP 225 W, 2,1-4,1 GHz)
- 8 x dysków SSD Solidigm P5520 o pojemności 1,6 TB z kartą PERC 12 RAID
- 1-4 karty graficzne NVIDIA L4
- 8 x modułów RDIMM 64 GB
- Ubuntu Server 22.04
- Sterownik NVIDIA 535
| Dell PowerEdge T560 1x NVIDIA L4 | Wynik |
|---|---|
| Resnet50 – Server | 12 204,40 |
| Resnet50 – Offline | 12 872,10 |
| Bert K99 – Server | 898,945 |
| Bert K99 – Offline | 945,146 |
W naszych testach z dwoma kartami L4 w Dell T560 zaobserwowaliśmy prawie liniowe skalowanie wydajności zarówno dla benchmarków Resnet50, jak i BERT K99. Skalowanie to jest świadectwem wydajności kart graficznych L4 i ich zdolności do pracy w tandemie bez znaczących strat spowodowanych narzutem lub nieefektywnością.
| Dell PowerEdge T560 2x NVIDIA L4 | Wynik |
|---|---|
| Resnet50 – Server | 24 407,50 |
| Resnet50 – Offline | 25 463,20 |
| BERT K99 – Server | 1 801,28 |
| BERT K99 – Offline | 1 904,10 |
Spójne liniowe skalowanie, które zaobserwowaliśmy w przypadku dwóch kart graficznych NVIDIA L4, imponująco rozciąga się na konfiguracje z czterema jednostkami L4. Skalowanie to jest szczególnie godne uwagi, ponieważ utrzymanie liniowych przyrostów wydajności staje się coraz trudniejsze z każdą dodaną kartą graficzną ze względu na złożoność przetwarzania równoległego i zarządzania zasobami.
| Dell PowerEdge T560 4x NVIDIA L4 | Wynik |
|---|---|
| Resnet50 – Server | 48 818,30 |
| Resnet50 – Offline | 51 381,70 |
| BERT K99 – Server | 3 604,96 |
| BERT K99 – Offline | 3 821,46 |
Wyniki te mają charakter wyłącznie ilustracyjny i nie są konkurencyjnymi ani oficjalnymi wynikami MLPerf. Pełną listę oficjalnych wyników można znaleźć na stronie MLPerf Results Page.
Oprócz walidacji liniowej skalowalności kart graficznych NVIDIA L4, nasze testy laboratoryjne rzucają światło na praktyczne implikacje wdrażania tych jednostek w różnych scenariuszach operacyjnych. Na przykład, spójność wydajności między trybami server i offline we wszystkich konfiguracjach z kartami graficznymi L4 ujawnia ich niezawodność i wszechstronność.
Ten aspekt jest szczególnie istotny dla firm i instytucji badawczych, gdzie konteksty operacyjne znacznie się różnią. Ponadto, nasze obserwacje dotyczące minimalnego wpływu wąskich gardeł interfejsu i efektywności synchronizacji GPU w konfiguracjach wielo-GPU dostarczają cennych informacji dla tych, którzy chcą skalować swoją infrastrukturę AI. Te spostrzeżenia wykraczają poza zwykłe liczby benchmarków, oferując głębsze zrozumienie tego, jak taki sprzęt może być optymalnie wykorzystany w rzeczywistych scenariuszach, kierując lepsze decyzje architektoniczne i strategie inwestycyjne w infrastrukturę AI i HPC.
NVIDIA L4 – Wydajność aplikacji
Porównaliśmy wydajność nowej karty NVIDIA L4 z kartami NVIDIA A2 i NVIDIA T4, które pojawiły się wcześniej. Aby zademonstrować tę poprawę wydajności w porównaniu do poprzednich modeli, wdrożyliśmy wszystkie trzy modele w serwerze w naszym laboratorium, z systemem Windows Server 2022 i najnowszymi sterownikami NVIDIA, wykorzystując nasz cały pakiet testów GPU.
Karty te były testowane na serwerze Dell Poweredge R760 z następującą konfiguracją:
- 2 x Intel Xeon Gold 6430 (32 rdzenie, 2,1 GHz)
- Windows Server 2022
- Sterownik NVIDIA 538.15
- ECC wyłączone na wszystkich kartach dla próbkowania 1x
Na początku testów wydajności tej grupy trzech kart graficznych klasy enterprise, ważne jest, aby zauważyć unikalne różnice w wydajności między wcześniejszymi modelami A2 i T4. Kiedy A2 została wydana, oferowała ona pewne znaczące ulepszenia, takie jak niższe zużycie energii i działanie na mniejszym gnieździe PCIe Gen4 x8, zamiast większego gniazda PCIe Gen3 x16, którego wymagała starsza T4. Od razu pozwoliło to na jej instalację w większej liczbie systemów, szczególnie ze względu na mniejszy wymagany rozmiar.
Blender OptiX 4.0
Blender OptiX to aplikacja do modelowania 3D typu open-source. Test ten może być przeprowadzany zarówno dla CPU, jak i GPU, ale my wykonaliśmy go tylko dla GPU, podobnie jak większość innych testów. Benchmark ten został przeprowadzony przy użyciu narzędzia Blender Benchmark CLI. Wynik to próbki na minutę, gdzie wyższy wynik jest lepszy.
| Blender 4.0 (Wyższy jest lepszy) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monster | 2 207,765 | 458,692 | 850,076 |
| GPU Blender CLI – Junkshop | 1 127,829 | 292,553 | 517,243 |
| GPU Blender CLI – Classroom | 1 111,753 | 262,387 | 478,786 |
Blackmagic RAW Speed Test
Testujemy procesory i karty graficzne za pomocą Blackmagic RAW Speed Test, który testuje prędkość odtwarzania wideo. Jest to bardziej test hybrydowy, który obejmuje wydajność CPU i GPU do dekodowania RAW w czasie rzeczywistym. Są one wyświetlane jako oddzielne wyniki, ale skupiamy się tylko na kartach graficznych, więc wyniki CPU są pominięte.
| Blackmagic RAW Speed Test (Wyższy jest lepszy) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon Cinebench 2024 to benchmark renderowania CPU i GPU, który wykorzystuje wszystkie rdzenie i wątki CPU. Ponownie, ponieważ skupiamy się na wynikach GPU, nie przeprowadzaliśmy części CPU testu. Wyższe wyniki są lepsze.
| Cinebench 2024 (Wyższy jest lepszy) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15 263 | 4 006 | 5 644 |
GPU PI
GPUPI 3.3.3 to wersja lekkiego narzędzia do benchmarkingu zaprojektowanego do obliczania π (pi) do miliardów miejsc po przecinku przy użyciu akceleracji sprzętowej przez GPU i CPU. Wykorzystuje moc obliczeniową OpenCL i CUDA, która obejmuje zarówno procesory centralne, jak i graficzne. Uruchomiliśmy CUDA tylko na wszystkich 3 kartach graficznych, a liczby tutaj to czas obliczeń bez dodanego czasu redukcji. Niższy wynik jest lepszy.
| Czas obliczeń GPU PI w sekundach (Niższy jest lepszy) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3,732s | 19,799s | 7,504s |
| GPUPI v3.3 – 32B | 244,380s | 1 210,801s | 486,231s |
Chociaż poprzednie wyniki dotyczyły tylko pojedynczej iteracji każdej karty, mieliśmy również okazję przyjrzeć się wdrożeniu 5 kart NVIDIA L4 w serwerze Dell PowerEdge T560.
| Czas obliczeń GPU PI w sekundach (Niższy jest lepszy) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) z 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 – 1B | 0s 850ms |
| GPUPI v3.3 – 32B | 50s 361ms |
Octanebench
OctaneBench to narzędzie do benchmarkingu dla OctaneRender, innego renderera 3D z obsługą RTX, podobnego do V-Ray.
| Octane (Wyższy jest lepszy) | ||||
| Scena | Kernel | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Wnętrze | Kanały informacyjne | 15,59 | 4,49 | 6,39 |
| Oświetlenie bezpośrednie | 50,85 | 14,32 | 21,76 | |
| Śledzenie ścieżki | 64,02 | 18,46 | 25,76 | |
| Pomysł | Kanały informacyjne | 9,30 | 2,77 | 3,93 |
| Oświetlenie bezpośrednie | 39,34 | 11,53 | 16,79 | |
| Śledzenie ścieżki | 48,24 | 14,21 | 20,32 | |
| ATV | Kanały informacyjne | 24,38 | 6,83 | 9,50 |
| Oświetlenie bezpośrednie | 54,86 | 16,05 | 21,98 | |
| Śledzenie ścieżki | 68,98 | 20,06 | 27,50 | |
| Pudełko | Kanały informacyjne | 12,89 | 3,88 | 5,42 |
| Oświetlenie bezpośrednie | 48,80 | 14,59 | 21,36 | |
| Śledzenie ścieżki | 54,56 | 16,51 | 23,85 | |
| Wynik całkowity | 491,83 | 143,71 | 204,56 | |
Geekbench 6 GPU
Geekbench 6 to wieloplatformowy benchmark mierzący ogólną wydajność systemu. Dostępne są opcje testowania zarówno dla CPU, jak i GPU. Wyższe wyniki są lepsze. Ponownie, analizowaliśmy tylko wyniki GPU.
Porównania z dowolnym systemem można znaleźć w przeglądarce Geekbench Browser.
| Geekbench 6.1.0 (Wyższy jest lepszy) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156 224 | 35 835 | 83 046 |
Luxmark
LuxMark to wieloplatformowe narzędzie do benchmarkingu OpenCL od twórców silnika renderującego 3D typu open-source LuxRender. Narzędzie to analizuje wydajność GPU w modelowaniu 3D, oświetleniu i pracy z wideo. W tym przeglądzie użyliśmy najnowszej wersji, v4alpha0. W LuxMark wyższy wynik jest lepszy.
| Luxmark v4.0alpha0 GPU OpenCL (Wyższy jest lepszy) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Hall Bench | 14 328 | 3 759 | 5 893 |
| Food Bench | 5 330 | 1 258 | 2 033 |
GROMACS CUDA
Dostarczyliśmy również skompilowany GROMACS, oprogramowanie do dynamiki molekularnej, specjalnie dla CUDA. Ta niestandardowa kompilacja miała na celu wykorzystanie możliwości przetwarzania równoległego 5 kart graficznych NVIDIA L4, niezbędnych do przyspieszenia symulacji obliczeniowych.
Proces obejmował wykorzystanie nvcc, kompilatora CUDA firmy NVIDIA, wraz z wieloma iteracjami odpowiednich flag optymalizacyjnych, aby zapewnić, że binaria były odpowiednio dostosowane do architektury serwera. Włączenie obsługi CUDA do kompilacji GROMACS pozwala oprogramowaniu na bezpośrednią interakcję ze sprzętem GPU, co może drastycznie skrócić czas obliczeń dla złożonych symulacji.
Test: Niestandardowa interakcja białek w Gromacs
Wykorzystując plik wejściowy dostarczony przez społeczność z naszego Discorda, który zawierał parametry i struktury dostosowane do konkretnego badania interakcji białek, rozpoczęliśmy symulację dynamiki molekularnej. Wyniki były niezwykłe – system osiągnął szybkość symulacji 170,268 nanosekund na dzień.
| GPU | System | ns/dzień | czas rdzenia (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84,415 | 163 763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131,85 | 209 692,3 |
| 5x NVIDIA L4 | Dell T560 z 2x Intel Xeon Gold 6448Y | 170,268 | 608 912,7 |
Więcej niż AI
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Fokus biznesowy:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi globalnymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój zaufany dostawca usług w zakresie produktów ICT!



