Dwie definiujące cechy wyróżniają kartę NVIDIA DGX Spark: 128 GB zunifikowanej pamięci w jednostce stacjonarnej o wartości 4000 USD oraz wbudowana sieć klasy 200 Gb dla centrów danych. Szybka struktura odróżnia ją od zwykłych stacji roboczych, umożliwiając klastrowanie wielu węzłów, niegdyś dostępne wyłącznie dla serwerów montowanych w szafie. W tej recenzji porównano rozproszone wnioskowanie w wariantach Dell, GIGABYTE i HP Spark w dwuwęzłowych klastrach 200GbE w różnych modelach i obciążeniach. Analizuje także równoległość potoku (PP), alternatywną metodę podziału, która przewyższa domyślną równoległość tensorową (TP) firmy NVIDIA.
Sieć szkieletowa 200 Gb
Każdy Spark jest wyposażony w dwie klatki QSFP56 sparowane ze zintegrowaną kartą ConnectX-7 SmartNIC. Ograniczona przepustowością PCIe Gen5 x4, użyteczna prędkość sieci jest ograniczona do 200 Gb, z jednym portem wystarczającym do obsługi pełnej przepustowości; drugi port zapewnia elastyczność topologii. Dostępne są trzy popularne konfiguracje: bezpośrednie łącza Spark-to-Spark 200 Gb, topologia pierścieniowa bez przełączników za pośrednictwem dwóch portów 100 Gb oraz klaster hybrydowy z szybkim dostępem do pamięci masowej NVMe-oF. NVIDIA sprzedaje jednojednostkowe komputery stacjonarne, sprawdzone klastry dwuwęzłowe i nowo wprowadzone konfiguracje czterowęzłowe. Konfiguracja z podwójną iskrą jest najbardziej praktyczna pod względem wnioskowania w stylu produkcyjnym i jest przedmiotem tego testu.
Uzasadnienie klastrowania Spark
Podstawową korzyścią jest zwiększenie pojemności modelu: dwie połączone platformy Spark mogą uruchamiać modele o parametrach 120B, które przekraczają limity pamięci pojedynczej jednostki. Co ważniejsze, platforma służy jako niedrogie narzędzie edukacyjne. NVIDIA projektuje Sparka dla początkujących, aby mogli uczyć się przepływów pracy AI, korzystając z oficjalnych przewodników obejmujących wdrażanie modeli, dostrajanie i rozwój PyTorch/JAX. Klastry dwuwęzłowe dodatkowo uczą równoległości wielu węzłów i analizy wąskich gardeł sieci bez kosztownego sprzętu w centrum danych. Warto zauważyć, że Spark nie jest zoptymalizowany pod kątem wnioskowania produkcyjnego. Ograniczone przepustowością pamięci i opóźnieniami między węzłami, łącze 200 GbE jest wolniejsze niż wewnętrzne połączenia PCIe. Większe klastry charakteryzują się poważnym spadkiem wydajności i niską przepustowością tokenów, co ogranicza je do celów edukacyjnych, a nie komercyjnych.
Testowanie wydajności: PP vs TP
Wybór strategii równoległości
NVIDIA domyślnie korzysta z protokołu TP, który dzieli każdą warstwę transformatora na dwa procesory graficzne z częstą wymianą danych typu all-reduce. Natomiast PP dzieli modele według warstw, przenosząc aktywacje tylko raz pomiędzy węzłami. W przypadku łączy 200GbE PP minimalizuje komunikację między węzłami. W przypadku dużych modeli i dużych partii PP znacznie przewyższa TP; Firma TP przoduje jedynie w scenariuszach czatu z jednym żądaniem i niskim opóźnieniem.
Testy przeprowadzone na GPT-OSS-120B potwierdzają tę lukę. Przy wielkości partii 128 PP osiąga 554,69 tok/s (2,20 razy szybciej niż TP) przy zrównoważonych obciążeniach, 310,63 tok/s w porównaniu do 164,99 tok/s w zadaniach wymagających dużego wstępnego wypełnienia. TP prowadzi tylko w partii o wielkości 1. W przypadku małych modeli, takich jak Llama-3.1-8B, TP dominuje w większości wielkości partii ze względu na obliczenia lekkich warstw, przy czym PP wyprzedza TP jedynie przy dużej współbieżności.
Wyniki testów porównawczych wielu modeli (PP=2)
Seria GPT-OSS
W przypadku GPT-OSS-120B, HP osiągnął najwyższą szczytową przepustowość przy obciążeniach zrównoważonych (504,88 tok/s) i dużych obciążeniach wstępnych (441,63 tok/s); Testy GIGABYTE doprowadziły do ciężkiego dekodowania (494,37 tok/s). W przypadku GPT-OSS-20B Dell dominował w scenariuszach zrównoważonych (976,77 tok/s) i wymagających wstępnego wypełnienia (852,39 tok/s), podczas gdy GIGABYTE prowadził zadania dekodowania (945,55 tok/s).
Warianty Lamy 3.1 8B
Przy precyzji BF16 firma Dell przeprowadziła zrównoważone (689,53 tok/s) i wymagające dużego dekodowania (581,43 tok/s) obciążenia; GIGABYTE wygrał testy wymagające wstępnego wypełnienia (539,27 tok/s). Optymalizacja 4PR znacznie zwiększyła przepustowość: zadania GIGABYTE LED zrównoważone (1458,86 tok/s) i wymagające wstępnego napełniania (954,23 tok/s). W przypadku 8PR firma Dell utrzymała niewielką przewagę w scenariuszach zrównoważonych (1105,42 tok/s) i wymagających dużego dekodowania (862,33 tok/s).
Modele Mistral i Qwen
Mistral Small 3.1 24B odnotował minimalne luki: GIGABYTE osiągnął szczyt przy 255,09 tok/s przy zrównoważonym obciążeniu. W przypadku Qwen3 Coder 30B (baza A3B) GIGABYTE prowadził zadania wymagające wstępnego wypełnienia (1862,40 tok/s); Firma Dell przodowała w scenariuszach dekodowania. W przypadku kwantyzacji FB8, GIGABYTE osiągnął najwyższą przepustowość przy dużym obciążeniu przed napełnieniem (3088,62 tok/s), podczas gdy Dell kierował zadaniami dekodowania (705,77 tok/s).
Podsumowanie mocy szczytowej systemów Dual Spark
|
Model
|
Scenariusz (BS – 64)
|
Szczytowa wydajność firmy Dell
|
Szczytowa moc wyjściowa GIGABYTE
|
Szczytowa moc wyjściowa HP
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
Równy ISL/OSL
|
463,97 tok/s
|
497,26 tok/s
|
504,88 tok/s
|
|
GPT-OSS-120B
|
Wstępnie napełnij Ciężki
|
419,56 tok/s
|
417,34 tok/s
|
441,63 tok/s
|
|
GPT-OSS-120B
|
Odszyfruj Gruby
|
451,18 tok/s
|
494,37 tok/s
|
474,85 tok/s
|
|
GPT-OSS-20B
|
Równy ISL/OSL
|
976,77 tok/s
|
952,31 tok/s
|
915,72 tok/s
|
|
GPT-OSS-20B
|
Wstępnie napełnij Ciężki
|
852,39 tok/s
|
802,37 tok/s
|
757,05 tok/s
|
|
GPT-OSS-20B
|
Odszyfruj Gruby
|
938,65 tok/s
|
945,55 tok/s
|
865,78 tok/s
|
|
Lama-3.1-8B-Instruktaż
|
Równy ISL/OSL
|
689,53 tok/s
|
687,48 tok/s
|
618,87 tok/s
|
|
Lama-3.1-8B-Instruktaż
|
Wstępnie napełnij Ciężki
|
515,45 tok/s
|
539,27 tok/s
|
463,39 tok/s
|
|
Lama-3.1-8B-Instruktaż
|
Odszyfruj Gruby
|
581,43 tok/s
|
576,91 tok/s
|
531,07 tok/s
|
|
Lama-3.1-8B-FP4
|
Równy ISL/OSL
|
1427,39 tok/s
|
1458,86 tok/s
|
1413,51 tok/s
|
|
Lama-3.1-8B-FP4
|
Wstępnie napełnij Ciężki
|
884,22 tok/s
|
954,23 tok/s
|
843,57 tok/s
|
|
Lama-3.1-8B-FP4
|
Odszyfruj Gruby
|
1008,98 tok/s
|
1007,23 tok/s
|
943,73 tok/s
|
|
Lama-3.1-8B-FP8
|
Równy ISL/OSL
|
1105,42 tok/s
|
1089,85 tok/s
|
1076,68 tok/s
|
|
Lama-3.1-8B-FP8
|
Wstępnie napełnij Ciężki
|
759,50 tok/s
|
827,40 tok/s
|
725,51 tok/s
|
|
Lama-3.1-8B-FP8
|
Odszyfruj Gruby
|
862,33 tok/s
|
855,81 tok/s
|
800,78 tok/s
|
|
Mistral-Mały-3.1-24B
|
Równy ISL/OSL
|
249,77 tok/s
|
255,09 tok/s
|
239,09 tok/s
|
|
Mistral-Mały-3.1-24B
|
Wstępnie napełnij Ciężki
|
216,01 tok/s
|
214,38 tok/s
|
197,92 tok/s
|
|
Mistral-Mały-3.1-24B
|
Odszyfruj Gruby
|
238,44 tok/s
|
237,97 tok/s
|
221,41 tok/s
|
Wniosek
Jednostki Dell, GIGABYTE i HP Spark charakteryzują się znikomymi różnicami w wydajności, z niewielkimi wyprzedzeniami specyficznymi dla partii. W decyzjach o zakupie należy priorytetowo traktować konstrukcję obudowy, wydajność cieplną, gwarancję i wsparcie posprzedażowe, a nie trywialne różnice w benchmarkach. Strategia równoległości wywiera znacznie większy wpływ niż odmiany OEM: PP przewyższa TP w przypadku wnioskowania wsadowego, podczas gdy TP nadaje się do interakcji w pojedynczym strumieniu z niskim opóźnieniem. Zalecenie NVIDIA dotyczące TP jest zgodne z pozycjonowaniem Sparka jako interaktywnego urządzenia do nauki, a nie infrastruktury produkcyjnej. Dwuwęzłowy klaster Spark służy jako niedroga platforma dydaktyczna dla rozproszonej sztucznej inteligencji. Przyszłe testy obejmą większe klastry i kompleksowe szkolenie na temat małych modeli w oczekiwaniu na wdrożenie przełącznika 800 Gb w laboratorium.
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storageserver.com
Koncentracja biznesowa:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami, aby dostarczać niezawodne produkty i profesjonalne usługi.
„Wykorzystanie technologii do budowy inteligentnego świata”Twój zaufany dostawca usług produktów ICT!
Sandy Yang/dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storageserver.com
Koncentracja biznesowa:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami, aby dostarczać niezawodne produkty i profesjonalne usługi.
„Wykorzystanie technologii do budowy inteligentnego świata”Twój zaufany dostawca usług produktów ICT!



