Dom Przypadki

Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP

Wszystkie produkty

Serwer pamięci masowej w szafie
(165)

Serwer Huawei Fusion
(31)

Serwer Dell Poweredge
(59)

Serwer H3C
(31)

Przełączniki Datacom
(96)

Urządzenie WLAN
(21)

Inteligentny router bezprzewodowy
(10)

Dysk twardy HDD
(78)

Wewnętrzny dysk twardy SSD
(16)

Karta graficzna GeForce
(27)

Procesor procesora INTEL
(20)

Pamięć RAM serwera
(6)

Odnowiony serwer pamięci masowej
(6)

Moduł nadawczo-odbiorczy SFP
(4)

przełącznik kanału światłowodowego
(42)

Orzecznictwo

Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty

Opinie klientów

Pracownicy sprzedaży Beijing Qianxing Jietong Technology Co., Ltd są bardzo profesjonalni i cierpliwi. Mogą szybko dostarczyć wyceny. Jakość i opakowanie produktów są również bardzo dobre. Nasza współpraca przebiega bardzo sprawnie.

—— 《Festfing DV》LLC

Kiedy pilnie szukałem procesora Intel i dysku SSD firmy Toshiba, Sandy z Beijing Qianxing Jietong Technology Co., Ltd udzieliła mi dużej pomocy i szybko dostarczyła mi potrzebne produkty. Naprawdę ją doceniam.

—— Kitty Jen

Sandy z Beijing Qianxing Jietong Technology Co.,Ltd jest bardzo uważnym sprzedawcą, który przy zakupie serwera potrafi przypomnieć mi o błędach konfiguracyjnych. Inżynierowie są również bardzo profesjonalni i mogą szybko zakończyć proces testowania.

—— Strelkin Michaił Władimirowicz

Jesteśmy bardzo zadowoleni z naszej współpracy z firmą Beijing Qianxing Jietong. Jakość produktu jest doskonała, a dostawy zawsze na czas. Ich zespół sprzedaży jest profesjonalny, cierpliwy i bardzo pomocny we wszystkich naszych pytaniach. Naprawdę doceniamy ich wsparcie i oczekujemy długoterminowej współpracy. Gorąco polecamy!

—— Ahmad Navid

Jakość: Wielkie doświadczenie z moim dostawcą. MikroTik RB3011 był już używany, ale był w bardzo dobrym stanie i wszystko działa doskonale.i wszystkie moje obawy zostały szybko rozwiązaneBardzo niezawodny dostawca.

—— Geran Colesio

Im Online Czat teraz

Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP

May 15, 2026

Dwie definiujące cechy wyróżniają kartę NVIDIA DGX Spark: 128 GB zunifikowanej pamięci w jednostce stacjonarnej o wartości 4000 USD oraz wbudowana sieć klasy 200 Gb dla centrów danych. Szybka struktura odróżnia ją od zwykłych stacji roboczych, umożliwiając klastrowanie wielu węzłów, niegdyś dostępne wyłącznie dla serwerów montowanych w szafie. W tej recenzji porównano rozproszone wnioskowanie w wariantach Dell, GIGABYTE i HP Spark w dwuwęzłowych klastrach 200GbE w różnych modelach i obciążeniach. Analizuje także równoległość potoku (PP), alternatywną metodę podziału, która przewyższa domyślną równoległość tensorową (TP) firmy NVIDIA.

Sieć szkieletowa 200 Gb

Każdy Spark jest wyposażony w dwie klatki QSFP56 sparowane ze zintegrowaną kartą ConnectX-7 SmartNIC. Ograniczona przepustowością PCIe Gen5 x4, użyteczna prędkość sieci jest ograniczona do 200 Gb, z jednym portem wystarczającym do obsługi pełnej przepustowości; drugi port zapewnia elastyczność topologii. Dostępne są trzy popularne konfiguracje: bezpośrednie łącza Spark-to-Spark 200 Gb, topologia pierścieniowa bez przełączników za pośrednictwem dwóch portów 100 Gb oraz klaster hybrydowy z szybkim dostępem do pamięci masowej NVMe-oF. NVIDIA sprzedaje jednojednostkowe komputery stacjonarne, sprawdzone klastry dwuwęzłowe i nowo wprowadzone konfiguracje czterowęzłowe. Konfiguracja z podwójną iskrą jest najbardziej praktyczna pod względem wnioskowania w stylu produkcyjnym i jest przedmiotem tego testu.

Uzasadnienie klastrowania Spark

Podstawową korzyścią jest zwiększenie pojemności modelu: dwie połączone platformy Spark mogą uruchamiać modele o parametrach 120B, które przekraczają limity pamięci pojedynczej jednostki. Co ważniejsze, platforma służy jako niedrogie narzędzie edukacyjne. NVIDIA projektuje Sparka dla początkujących, aby mogli uczyć się przepływów pracy AI, korzystając z oficjalnych przewodników obejmujących wdrażanie modeli, dostrajanie i rozwój PyTorch/JAX. Klastry dwuwęzłowe dodatkowo uczą równoległości wielu węzłów i analizy wąskich gardeł sieci bez kosztownego sprzętu w centrum danych. Warto zauważyć, że Spark nie jest zoptymalizowany pod kątem wnioskowania produkcyjnego. Ograniczone przepustowością pamięci i opóźnieniami między węzłami, łącze 200 GbE jest wolniejsze niż wewnętrzne połączenia PCIe. Większe klastry charakteryzują się poważnym spadkiem wydajności i niską przepustowością tokenów, co ogranicza je do celów edukacyjnych, a nie komercyjnych.

Testowanie wydajności: PP vs TP

Wybór strategii równoległości

NVIDIA domyślnie korzysta z protokołu TP, który dzieli każdą warstwę transformatora na dwa procesory graficzne z częstą wymianą danych typu all-reduce. Natomiast PP dzieli modele według warstw, przenosząc aktywacje tylko raz pomiędzy węzłami. W przypadku łączy 200GbE PP minimalizuje komunikację między węzłami. W przypadku dużych modeli i dużych partii PP znacznie przewyższa TP; Firma TP przoduje jedynie w scenariuszach czatu z jednym żądaniem i niskim opóźnieniem.

Testy przeprowadzone na GPT-OSS-120B potwierdzają tę lukę. Przy wielkości partii 128 PP osiąga 554,69 tok/s (2,20 razy szybciej niż TP) przy zrównoważonych obciążeniach, 310,63 tok/s w porównaniu do 164,99 tok/s w zadaniach wymagających dużego wstępnego wypełnienia. TP prowadzi tylko w partii o wielkości 1. W przypadku małych modeli, takich jak Llama-3.1-8B, TP dominuje w większości wielkości partii ze względu na obliczenia lekkich warstw, przy czym PP wyprzedza TP jedynie przy dużej współbieżności.

Wyniki testów porównawczych wielu modeli (PP=2)

Seria GPT-OSS

W przypadku GPT-OSS-120B, HP osiągnął najwyższą szczytową przepustowość przy obciążeniach zrównoważonych (504,88 tok/s) i dużych obciążeniach wstępnych (441,63 tok/s); Testy GIGABYTE doprowadziły do ciężkiego dekodowania (494,37 tok/s). W przypadku GPT-OSS-20B Dell dominował w scenariuszach zrównoważonych (976,77 tok/s) i wymagających wstępnego wypełnienia (852,39 tok/s), podczas gdy GIGABYTE prowadził zadania dekodowania (945,55 tok/s).

Warianty Lamy 3.1 8B

Przy precyzji BF16 firma Dell przeprowadziła zrównoważone (689,53 tok/s) i wymagające dużego dekodowania (581,43 tok/s) obciążenia; GIGABYTE wygrał testy wymagające wstępnego wypełnienia (539,27 tok/s). Optymalizacja 4PR znacznie zwiększyła przepustowość: zadania GIGABYTE LED zrównoważone (1458,86 tok/s) i wymagające wstępnego napełniania (954,23 tok/s). W przypadku 8PR firma Dell utrzymała niewielką przewagę w scenariuszach zrównoważonych (1105,42 tok/s) i wymagających dużego dekodowania (862,33 tok/s).

Modele Mistral i Qwen

Mistral Small 3.1 24B odnotował minimalne luki: GIGABYTE osiągnął szczyt przy 255,09 tok/s przy zrównoważonym obciążeniu. W przypadku Qwen3 Coder 30B (baza A3B) GIGABYTE prowadził zadania wymagające wstępnego wypełnienia (1862,40 tok/s); Firma Dell przodowała w scenariuszach dekodowania. W przypadku kwantyzacji FB8, GIGABYTE osiągnął najwyższą przepustowość przy dużym obciążeniu przed napełnieniem (3088,62 tok/s), podczas gdy Dell kierował zadaniami dekodowania (705,77 tok/s).

Podsumowanie mocy szczytowej systemów Dual Spark

Model	Scenariusz (BS – 64)	Szczytowa wydajność firmy Dell	Szczytowa moc wyjściowa GIGABYTE	Szczytowa moc wyjściowa HP
GPT-OSS-120B	Równy ISL/OSL	463,97 tok/s	497,26 tok/s	504,88 tok/s
GPT-OSS-120B	Wstępnie napełnij Ciężki	419,56 tok/s	417,34 tok/s	441,63 tok/s
GPT-OSS-120B	Odszyfruj Gruby	451,18 tok/s	494,37 tok/s	474,85 tok/s
GPT-OSS-20B	Równy ISL/OSL	976,77 tok/s	952,31 tok/s	915,72 tok/s
GPT-OSS-20B	Wstępnie napełnij Ciężki	852,39 tok/s	802,37 tok/s	757,05 tok/s
GPT-OSS-20B	Odszyfruj Gruby	938,65 tok/s	945,55 tok/s	865,78 tok/s
Lama-3.1-8B-Instruktaż	Równy ISL/OSL	689,53 tok/s	687,48 tok/s	618,87 tok/s
Lama-3.1-8B-Instruktaż	Wstępnie napełnij Ciężki	515,45 tok/s	539,27 tok/s	463,39 tok/s
Lama-3.1-8B-Instruktaż	Odszyfruj Gruby	581,43 tok/s	576,91 tok/s	531,07 tok/s
Lama-3.1-8B-FP4	Równy ISL/OSL	1427,39 tok/s	1458,86 tok/s	1413,51 tok/s
Lama-3.1-8B-FP4	Wstępnie napełnij Ciężki	884,22 tok/s	954,23 tok/s	843,57 tok/s
Lama-3.1-8B-FP4	Odszyfruj Gruby	1008,98 tok/s	1007,23 tok/s	943,73 tok/s
Lama-3.1-8B-FP8	Równy ISL/OSL	1105,42 tok/s	1089,85 tok/s	1076,68 tok/s
Lama-3.1-8B-FP8	Wstępnie napełnij Ciężki	759,50 tok/s	827,40 tok/s	725,51 tok/s
Lama-3.1-8B-FP8	Odszyfruj Gruby	862,33 tok/s	855,81 tok/s	800,78 tok/s
Mistral-Mały-3.1-24B	Równy ISL/OSL	249,77 tok/s	255,09 tok/s	239,09 tok/s
Mistral-Mały-3.1-24B	Wstępnie napełnij Ciężki	216,01 tok/s	214,38 tok/s	197,92 tok/s
Mistral-Mały-3.1-24B	Odszyfruj Gruby	238,44 tok/s	237,97 tok/s	221,41 tok/s

Wniosek

Jednostki Dell, GIGABYTE i HP Spark charakteryzują się znikomymi różnicami w wydajności, z niewielkimi wyprzedzeniami specyficznymi dla partii. W decyzjach o zakupie należy priorytetowo traktować konstrukcję obudowy, wydajność cieplną, gwarancję i wsparcie posprzedażowe, a nie trywialne różnice w benchmarkach. Strategia równoległości wywiera znacznie większy wpływ niż odmiany OEM: PP przewyższa TP w przypadku wnioskowania wsadowego, podczas gdy TP nadaje się do interakcji w pojedynczym strumieniu z niskim opóźnieniem. Zalecenie NVIDIA dotyczące TP jest zgodne z pozycjonowaniem Sparka jako interaktywnego urządzenia do nauki, a nie infrastruktury produkcyjnej. Dwuwęzłowy klaster Spark służy jako niedroga platforma dydaktyczna dla rozproszonej sztucznej inteligencji. Przyszłe testy obejmą większe klastry i kompleksowe szkolenie na temat małych modeli w oczekiwaniu na wdrożenie przełącznika 800 Gb w laboratorium.

Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storageserver.com
Koncentracja biznesowa:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami, aby dostarczać niezawodne produkty i profesjonalne usługi.
„Wykorzystanie technologii do budowy inteligentnego świata”Twój zaufany dostawca usług produktów ICT!

PREV: Recenzja ORICO X50: Thunderbolt 5 Speed w przenośnej obudowie SSD

NEXT: Recenzja dysku Seagate IronWolf Pro 32 TB: najwyższa pojemność dla serwerów NAS z wieloma kieszeniami

Szczegóły kontaktu

Beijing Qianxing Jietong Technology Co., Ltd.

Osoba kontaktowa: Ms. Sandy Yang

Tel: 13426366826

Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP

Serwer pamięci masowej w szafie

Serwer Huawei Fusion

Serwer Dell Poweredge

Serwer H3C

Przełączniki Datacom

Urządzenie WLAN

Inteligentny router bezprzewodowy

Dysk twardy HDD

Wewnętrzny dysk twardy SSD

Karta graficzna GeForce

Procesor procesora INTEL

Pamięć RAM serwera

Odnowiony serwer pamięci masowej

Moduł nadawczo-odbiorczy SFP

przełącznik kanału światłowodowego

Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP

Sieć szkieletowa 200 Gb

Uzasadnienie klastrowania Spark

Testowanie wydajności: PP vs TP

Wybór strategii równoległości

Wyniki testów porównawczych wielu modeli (PP=2)

Seria GPT-OSS

Warianty Lamy 3.1 8B

Modele Mistral i Qwen

Podsumowanie mocy szczytowej systemów Dual Spark

Wniosek

Serwer pamięci masowej w szafie

12 wnęk Serwer do montażu w szafie serwerowej 1U Lenovo ThinkSystem SR630 Serwer do montażu w szafie serwerowej

Think System SR250 V2 4SFF Rack Storage Server Procesor Intel Xeon E-2378G

Serwer pamięci masowej Intel C621A do montażu w szafie serwerowej Inspur NF5180M6 1U do montażu w szafie serwerowej

Serwer Huawei Fusion

FusionServer 5288 V6 4U serwer do montażu w szafie serwerowej 32 moduły DIMM DDR4 44 3,5-calowe dyski twarde

Sieciowy serwer pamięci masowej o ultra wysokiej gęstości Huawei Fusion Server 1U 1288H V5

Nowa generacja OceanStor 5310 Hybrydowa pamięć flash do serwerów stelażowych Huawei